Tag: scrapy

Scrapy и Xpath для извлечения данных из javascript-кода

Я участвую в процессе обучения и одновременно создаю паутину с помощью scrapy. Мне нужна помощь в извлечении некоторой информации из следующего кода javascript: <script language="JavaScript" type="text/javascript+gk-onload"> SKART = (SKART) ? SKART : {}; SKART.analytics = SKART.analytics || {}; SKART.analytics["category"] = "television"; SKART.analytics["vertical"] = "television"; SKART.analytics["supercategory"] = "homeentertainmentlarge"; SKART.analytics["subcategory"] = "television"; </script> Я хочу извлечь информацию […]

Использовать Scrapy для обхода локального XML-файла – Запустить адрес локального файла URL-адреса

Я хочу обходить локальный XML-файл, который я нашел в папке «Загрузка» с помощью scrapy, и использовать xpath для извлечения соответствующей информации. Использование вставки в качестве руководства 2016-01-24 12:38:53 [scrapy] DEBUG: Retrying <GET file://home/sayth/Downloads/20160123RAND0.xml> (failed 2 times): [Errno 2] No such file or directory: '/sayth/Downloads/20160123RAND0.xml' 2016-01-24 12:38:53 [scrapy] DEBUG: Gave up retrying <GET file://home/sayth/Downloads/20160123RAND0.xml> (failed 3 […]

Scrapy :: Проблемы с экспортом CSV

Я пытаюсь использовать Scrapy для экспорта скребковых элементов в поле CSV с каждым полем, заключенным в двойные кавычки. В настоящее время CSV экспортируется правильно, но когда я пытаюсь изменить поля элемента и добавлять двойные кавычки вручную, CSV заканчивается каждым полем, заключенным в тройные двойные кавычки. Вот пример того, что я пытаюсь сделать: Код Scrapy import […]

Как сохранить кеш в селене в цикле после обновления страницы?

Я использую этот паук, чтобы щелкнуть по цвету, а затем страница обновится, а затем последует щелчок по ссылкам, но он перерывается между ними и бросает элемент, который не найден в кеше – возможно, страница изменилась с тех пор, как она была просмотрена. Ошибка Как получить провести оригинальную страницу после завершения цикла? Не удалось найти подходящее […]

Scrapy и предоставление формы javascript

Я изучаю scrapy, и я столкнулся с помехой, пытаясь представить форму, управляемую javascript. Я пробовал экспериментировать с рядом вещей, найденных здесь, в Stack Overflow, включая Selenium, но не повезло (по ряду причин). Страница, которую мне нужно очистить, – это … http://agmarknet.nic.in/ … и выполнять поиск товаров. Когда я проверяю элементы, он, как представляется, имеет форму […]

Ошибка при создании проекта Scrapy через startproject

Я изучаю рамки Scrapy. Я только начал, так что это может показаться новичком. Однако, здесь. Я использую команду startproject для создания проекта. Однако проект не может быть создан. Это дает мне следующую ошибку. Traceback (most recent call last): File "/usr/local/bin/scrapy", line 11, in <module> sys.exit(execute()) File "/usr/local/lib/python2.7/dist-packages/scrapy/cmdline.py", line 122, in execute cmds = _get_commands_dict(settings, inproject) […]

python scrapy как закодировать параметр вместо использования cmd: использовать пользовательский код в Scrapy

Я использую scrapy 0.20 с puthon 2.7 я использовал это в cmd -s JOBDIR=crawls/somespider-1 для обработки дублированных предметов. заметьте, я уже сделал изменения в настройке Я не хочу использовать это в cmd. есть так или иначе, поэтому я могу ввести его в код внутри моего паука? благодаря

Как запустить поисковый робот автоматически?

Я использую django и scrapy framework для завершения проекта. В моем проекте есть два сканера. Теперь я хочу, чтобы эти сканеры запускались один или два раза в день автоматически. Итак, как я могу это достичь? Как это достигается? Простая идея использования работы cron – это то, что я ищу? Поэтому я ищу хорошую и легкую […]

Как имитировать запрос xhr с помощью Scrapy при попытке обхода данных из веб-сайта на основе ajax?

Я новичок в сканировании веб-страницы с помощью Scrapy и, к сожалению, выбрал динамический запуск … Я успешно просканировал часть (120 ссылок), благодаря кому-то, кто помогает мне здесь , но не ссылки на целевой сайт После некоторых исследований я знаю, что сканирование ajax-сети ничем не отличается от этих простых идей: • открыть инструменты для разработчиков браузера, […]

Как очистить куки в scrapy?

По умолчанию scrapy хранит и передает файлы cookie по запросам. Но как мне получить доступ или очистить сохраненные файлы cookie в определенный момент паука? Благодаря?

Interesting Posts

Создайте сценарий графического интерфейса запуска из Python setuptools (без консольного окна!)

Не удалось импортировать файл distutils.dir_util в Windows

как получить все значения из массива numpy, исключая определенный индекс?

API Google Mirror, бросающий исключение BadStatusLine (Python)

Как обрабатывать utf8 в командной строке (используя Perl или Python)?

Re-raise исключение Python и сохранение трассировки стека

Python и RabbitMQ – Лучший способ прослушивать события из нескольких каналов?

Как получить «USDJPY» (курсы валют) с помощью pandas и yahoo finance?

numpy разделите строку за строкой sum

Лучший способ стянуть пунктуацию из строки в Python

Записать зарезервированные символы LaTeX с регулярным выражением

Python: strftime () UTC Offset Не работает как ожидается в Windows

Загрузите таблицу из Google Docs с помощью Python

Обнаружение, если электронное письмо является «уведомлением о статусе доставки» и извлекает информацию – Python

сколько времени тратит подпроцесс python

Python - лучший язык программирования в мире.