Tag: screen

Список возвратов Ghost.py

Я только что установил Ghost.py , чтобы очистить сайт, требующий наличия javascript. Есть ли в любом случае, чтобы получить итерируемый список форм на текущей странице, так же, как и модуль механизации, с mechanize.Browser().forms() ? Или, если нет, я могу передать страницу (после загрузки всего файла javascript) в библиотеку механизатора и позволить ей заполнять / отправлять […]

Сохранение данных Scrapy для соответствующего URL-адреса в MySQL

В настоящее время работает с Scrapy. У меня есть список URL-адресов, хранящихся в базе данных MySQL. Паук посещает эти URL-адреса, захватывает две целевые данные ( счет и счет ). Моя цель состоит в том, что при завершении скрипирования Scrapy она автоматически заполняет соответствующие столбцы, прежде чем перейдет к следующему URL-адресу. Я новичок, и я не […]

Scrapy + Splash + ScrapyJS

Я использую Splash 2.0.2 + Scrapy 1.0.5 + Scrapyjs 0.1.1 и им все еще не Splash 2.0.2 + Scrapy 1.0.5 + Scrapyjs 0.1.1 отобразить javascript одним щелчком мыши. Вот пример url https://olx.pt/anuncio/loja-nova-com-250m2-garagem-em-box-fechada-para-arrumos-IDyTzAT.html#c49d3d94cf Я все еще получаю страницу без отображаемого номера телефона: class OlxSpider(scrapy.Spider): name = "olx" rotate_user_agent = True allowed_domains = ["olx.pt"] start_urls = [ […]

Проблема с использованием scrapy для очистки группы yahoo

Я новичок в веб-соскабливании и только что начал экспериментировать с Scrapy , фреймворком, написанным на Python. Моя цель – очистить старую группу Yahoo, поскольку они не предоставляют API или другие средства для извлечения архивов сообщений. Группа Yahoo настроена так, что вам нужно войти в систему, прежде чем вы сможете просматривать архивы. Я считаю, что шаги, […]

страница соскабливания, чтобы получить цены от google finance

Я пытаюсь получить цены на акции, соскабливая страницы финансов Google, я делаю это в python, используя пакет urllib, а затем используя regex для получения данных о ценах. Когда я покидаю скрипт python, он работает изначально в течение некоторого времени (несколько минут), а затем запускает исключение исключения [HTTP Error 503: Service Unavailable] Я предполагаю, что это […]

Как запустить фоновые задания w / paramiko?

Вот мой сценарий: я пытаюсь автоматизировать некоторые задачи с помощью Paramiko. Задачи должны быть начаты в этом порядке (с использованием обозначения (хост, задача)): (A, 1), (B, 2), (C, 2), (A, 3), (B, 3) – – по существу, запуск серверов и клиентов для некоторого тестирования в правильном порядке. Кроме того, поскольку в тестах сеть может быть […]

Python – Скремблирование экрана и управление мышью в OS X

Я изучаю экранные скребки и управляю мышью в OS X для проекта хобби. Я не ищу самый элегантный способ, но мне нужно улавливать экран каждые полсекунды или около того. Я обнаружил, что могу использовать инструмент командной строки screencapture -w -W -i ~/Desktop/capture.jpg ( screencapture -w -W -i ~/Desktop/capture.jpg ), но я беспокоюсь, что это может […]

Python web scraping – как получить ресурсы с красивым супом, когда страница загружает содержимое через JS?

Поэтому я пытаюсь очистить таблицу с определенного сайта с помощью BeautifulSoup и urllib. Моя цель – создать единый список из всех данных в этой таблице. Я пробовал использовать этот же код с помощью таблиц с других сайтов, и он отлично работает. Однако, пытаясь использовать этот сайт, таблица возвращает объект NoneType. Может кто-то помочь мне с […]

Ищете рекомендацию хорошего учебника по передовой практике для проекта веб-соскабливания?

Мне нужно сделать довольно обширный проект с использованием веб-соскабливания, и я рассматриваю использование Hpricot или Beautiful Soup (т.е. Ruby или Python). Кто-нибудь сталкивался с учебником, который, по их мнению, был особенно хорош в этом вопросе, который помог бы мне запустить проект на правой ноге?

Как Evernote Web Clipper так хорошо анализирует веб-страницы?

Я пытаюсь реплицировать возможности синтаксического анализа Evernote Web Clipper в python для моих собственных проектов веб-скрепок. Я заинтересован в том, чтобы извлечь основной текст только, ничего больше. Я использовал порт python Arc90: https://github.com/buriy/python-readability в сочетании с замечательной html2text-библиотекой aaronsw: https://github.com/aaronsw/html2text и это дает хорошие результаты большую часть времени, но Evernote намного лучше разбирает основной текст. […]

Python - лучший язык программирования в мире.