Tag: scraping

Открыть страницу программно в python

Вы можете извлечь номер VIN с этой веб-страницы ? Я попробовал urllib2.build_opener , запросы и механизировать. Я также предоставил пользовательский агент, но ни один из них не смог увидеть VIN. opener = urllib2.build_opener() opener.addheaders = [('User-agent',('Mozilla/5.0 (Macintosh; Intel Mac OS X 10_6_7) ' 'AppleWebKit/535.1 (KHTML, like Gecko) ' 'Chrome/13.0.782.13 Safari/535.1'))] page = opener.open(link) soup = […]

Запустить скрипт Selenium Python на удаленном сервере

Я создал веб-скребок, используя Selenium, который мне нужно запустить, когда моя локальная машина спала и не подключена к сети. У меня есть удаленный сервер, который я могу использовать для запуска этого скрипта, но у меня тяжелая работа, концептуализирующая, как это будет работать. Могу ли я использовать удаленный драйвер Selenium для этого? Я установил его на […]

Нажмите кнопку «показать больше» на nytimes.com с селеном

Я пытаюсь прокрутить эту страницу. После прокрутки вниз до нижней части страницы мне нужно нажать кнопку «ПОКАЗАТЬ БОЛЬШЕ», но я не могу найти ее с селеном. self.driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") self.driver.find_element_by_class_name('button load-more-button').click() Но я получаю InvalidSelectorException

Список возвратов Ghost.py

Я только что установил Ghost.py , чтобы очистить сайт, требующий наличия javascript. Есть ли в любом случае, чтобы получить итерируемый список форм на текущей странице, так же, как и модуль механизации, с mechanize.Browser().forms() ? Или, если нет, я могу передать страницу (после загрузки всего файла javascript) в библиотеку механизатора и позволить ей заполнять / отправлять […]

Scrapy – Как инициировать несколько экземпляров одного и того же процесса паука?

Я застреваю при запуске нескольких экземпляров одного и того же паука. Я хочу запустить его, как 1 url для 1 spider instance. Я должен обработать URL-адреса 50k, и для этого мне нужно инициировать отдельные экземпляры для каждого. В моем главном сценарии пауков я установил timepider timeut в течение 7 минут, чтобы убедиться, что я не […]

Облицовка вопросов, выбирающих 2-й элемент из раскрывающегося списка предложений

Я написал сценарий на python с селеном, чтобы очистить город и почтовый индекс от карт Google, используя обратный поиск. До сих пор он работает хорошо. Единственное требование, которое я не могу выполнить, – это: после помещения адреса в поле поиска иногда появляются несколько предложений, как выпадающее меню. Он по умолчанию выбирает первый. Если я хочу […]

Selenium Webdriver Python-Страница загружается не полностью / иногда зависает при обновлении

Я очищаю сайт с большим количеством javascript, который генерируется при вызове страницы. В результате традиционные методы веб-очистки (beautifulsoup, ect.) Не работают для моих целей (по крайней мере, я не увенчался успехом для их работы, все важные данные находятся в частях javascript). В результате я начал использовать selenium webdriver. Мне нужно очистить несколько сотен страниц, каждая […]

Scrapy Пуск_request parse

Я пишу скрипт для поиска и очистки результатов с веб-сайта. Мне нужно искать элементы с сайта и анализировать каждый URL из результатов поиска. Я начал с start_requests от Scrapy, где я передал поисковый запрос и перенаправил на другой parse функции, который будет извлекать URL-адреса из результата поиска. Наконец, я назвал другую функцию parse_item для анализа […]

Установка ScrapyJS – новая для python

Я пытаюсь использовать этот scrapy addon (или что это такое): scrapyjs . Однако нет инструкций по установке, и я новичок в Python. Есть ли что-то основное, что мне не хватает? Как бы я интегрировал это с проектом scrapy. Примечание. Я бы предпочел использовать обработчик загрузки Scrapy, а не версию промежуточного программного обеспечения, поскольку, похоже, он […]

Сохранение данных Scrapy для соответствующего URL-адреса в MySQL

В настоящее время работает с Scrapy. У меня есть список URL-адресов, хранящихся в базе данных MySQL. Паук посещает эти URL-адреса, захватывает две целевые данные ( счет и счет ). Моя цель состоит в том, что при завершении скрипирования Scrapy она автоматически заполняет соответствующие столбцы, прежде чем перейдет к следующему URL-адресу. Я новичок, и я не […]

Python - лучший язык программирования в мире.