Tag: beautifulsoup

Selenium Webdriver / Beautifulsoup + Веб-скребок + Ошибка 416

Я делаю веб-соскабливание с использованием selenium webdriver в Python с Proxy . Я хочу просматривать более 10 тыс. Страниц одного сайта с помощью этого скребка. Проблема заключается в использовании этого прокси-сервера. Я могу отправлять запрос только один раз. когда я отправляю другой запрос по той же ссылке или другой ссылке этого сайта, я получаю ошибку […]

Как сделать красивые суп-выходные объекты HTML?

Я пытаюсь дезинфицировать и XSS-доказательство ввода HTML-кода от клиента. Я использую Python 2.6 с красивым супом. Я анализирую ввод, разделяю все теги и атрибуты не в белом списке и преобразую дерево обратно в строку. Однако… >>> unicode(BeautifulSoup('text < text')) u'text < text' Для меня это не похоже на действительный HTML. И с моим стриптизером тегов […]

Разбор документа с помощью BeautifulSoup, не анализируя содержимое тегов <code>

Я пишу приложение для блога с Django. Я хочу, чтобы авторы комментариев использовали некоторые теги (например, <strong> , a и т. Д.), Но отключили все остальные. Кроме того, я хочу, чтобы они помещали код в теги <code>, а pygments анализировали их. Например, кто-то может написать этот комментарий: I like this article, but the third code […]

Могу ли я изменить способ сравнения ключей в питоне? Я хочу использовать оператор 'is' вместо ==

Предположим, у меня есть два объекта одного класса: objA и objB. Их отношения заключаются в следующем: (objA == objB) #true (objA is objB) #false Если я использую оба объекта в качестве ключей в питоне Python, они будут считаться одним и тем же ключом и перезаписывать друг друга. Есть ли способ переопределить диктатор-компаратор, чтобы использовать сравнение […]

beautifulsoup не распознает lxml

Я пытаюсь использовать lxml в качестве синтаксического анализа для BeautifulSoup, потому что по умолчанию MUCH медленнее, однако я получаю эту ошибку: soup = BeautifulSoup(html, "lxml") File "/home/rob/python/stock/local/lib/python2.7/site-packages/bs4/__init__.py", line 152, in __init__ % ",".join(features)) bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? Я удалил […]

Есть ли прекрасный суп для Python 3.4.1?

Я хочу попробовать и сделать программу, которая загружает изображения из Интернета, и я нашел руководство, которое использует красивый суп. Раньше я слышал о Beautiful Soup, поэтому решил, что попробую. Моя единственная проблема в том, что я не могу найти версию для Python 3. Я пошел на их сайт, но мне не удалось найти версию, которая […]

что я должен использовать вместо urlopen в urllib3

Я хотел написать код, как раньше … вот так: from bs4 import BeautifulSoup import urllib2 url = 'http://www.thefamouspeople.com/singers.php' html = urllib2.urlopen(url) soup = BeautifulSoup(html) Но я обнаружил, что мне нужно установить urllib3 сейчас. Но coudntfind любой учебник или пример, чтобы понять, как переписать выше кода, например, urllib3 не имеет urlopen. Любое объяснение или пример, пожалуйста […]

Извлечение данных из HTML-файлов с помощью BeautifulSoup и Python

Мне нужно извлечь данные из HTML-файлов. Эти файлы, скорее всего, автоматически генерируются. Я загрузил код одного из этих файлов в Pastebin: http://pastebin.com/9Nj2Edfv . Это ссылка на фактическую страницу: http://eur-lex.europa.eu/Notice.do?checktexts=checkbox&val=60504%3Acs&pos=1&page=1&lang=en&pgs=10&nbl=1&list=60504%3Acs%2C&hwords=&action = GO & VISU =% 23texte Данные, которые мне нужно извлечь, находятся под разными заголовками. Это то, что у меня есть до сих пор: from BeautifulSoup […]

«Модульные тесты потерпели неудачу» для beautifulsoup

Я пытаюсь установить beautifulsoup для python33, но он не устанавливается должным образом, он дает такую ​​ошибку: C:\Python33>pip install beautifulsoup Downloading/unpacking beautifulsoup Downloading BeautifulSoup-3.2.1.tar.gz Running setup.py egg_info for package beautifulsoup Traceback (most recent call last): File "<string>", line 16, in <module> File "c:\windows\temp\pip_build_Prashant\beautifulsoup\setup.py", line 22 print "Unit tests have failed!" ^ SyntaxError: invalid syntax Complete output […]

python lxml на движке приложения?

Могу ли я использовать python lxml для движка Google? (или мне нужно использовать Beautiful Soup?) Я начал использовать Beautiful Soup, но кажется медленным. Я только начинаю играть с идеей «скрипинга экрана» с других сайтов, чтобы создать своего рода «месиво».

Python - лучший язык программирования в мире.