Скремблирование сгенерированных javascript данных с использованием Python

Я хочу очистить некоторые данные следующего URL-адреса, используя Python. http://www.hankyung.com/stockplus/main.php?module=stock&mode=stock_analysis_infomation&itemcode=078340

Речь идет о сводке информации о компании.

То, что я хочу очистить, не отображается на первой странице. Нажав вкладку с именем «재무 제표», вы можете получить доступ к финансовой отчетности. И нажав вкладку с именем «현금 흐름표», вы можете получить доступ к «Денежный поток».

Я хочу очистить данные «Денежный поток».

Однако данные о движении денежных средств генерируются javascript по всему URL-адресу. Следующая ссылка – это скрытый URL-адрес, http://stock.kisline.com/compinfo/financial/main.action?vhead=N&vfoot=N&vstay=&omit=&vwidth=

Данные о движении денежных средств генерируются путем предоставления некоторого значения параметра и файла cookie для этого URL-адреса.

Как вы понимаете, itemcode = 078340 в первой ссылке означает код запаса, и имеется 1680 акций, которые я хочу собирать данные о движении денежных средств. Я хочу создать структуру цикла.

Есть ли хороший способ очистить данные о движении денежных средств? Я пробовал скрипировать, но мне очень сложно справиться с моим другим кодом, который я использую.

  • Удалите несколько страниц с помощью BeautifulSoup и Python
  • Как я могу визуализировать JavaScript HTML в HTML в python?
  • BeautifulSoup ведет себя по-разному на машине Amazon EC2
  • Чтение динамически созданных веб-страниц с использованием python
  • Почему BeautifulSoup не находит конкретный класс таблицы?
  • Получите все ссылки с BeautifulSoup с одного веб-сайта (функция «Загрузить больше»)
  • Как я могу получить текст из тега <dt> с помощью <span> внутри?
  • Как использовать python-запросы и крючки событий для записи веб-искателя с функцией обратного вызова?
  • 2 Solutions collect form web for “Скремблирование сгенерированных javascript данных с использованием Python”

    Там также есть dryscape (библиотека, написанная мной, поэтому рекомендация немного предвзятая, очевидно :), которая использует быстрый Webkit-based браузер в памяти для навигации. Он также понимает Javascript, но намного более легкий, чем Selenium.

    Если вам нужно просмотреть содержимое страницы, которое обновлено с помощью AJAX, и вы не контролируете этот интерфейс AJAX, я бы использовал автоматический браузер Selenium для этой задачи:

    http://code.google.com/p/selenium/

    • Selenium имеет привязки Python

    • Он запускает реальный экземпляр браузера, чтобы он мог делать и очищать на 100% то же самое, что вы видите своими глазами

    • Получить содержимое HTML-документа после обновлений AJAX через API Selenium

    • Используйте селектора lxml + xpath / CSS для разбора соответствующих частей из документа

    Python - лучший язык программирования в мире.