Tag: beautifulsoup

BeautifulSoup (html) не работает, говоря, что не может вызвать модуль?

import urllib2 import urllib from BeautifulSoup import BeautifulSoup # html from BeautifulSoup import BeautifulStoneSoup # xml import BeautifulSoup # everything import re f = o.open( 'http://www.google.com', p) html = f.read() f.close() soup = BeautifulSoup(html) Получение ошибки, указывающей на строку с супом = BeautifulSoup (html), говорит, что объект 'module' не может быть вызван.

BeautifulSoup Prettify не работает с символом авторского права

Я получаю ошибку Unicode: UnicodeEncodeError: 'charmap' codec can't encode character u'\xa9' in position 822: character maps to <undefined> Это, по-видимому, стандартный символ авторского права, а в HTML – & copy. Я не смог найти пути мимо этого. Я даже попробовал пользовательскую функцию, чтобы заменить копию пробелом, но это тоже не удалось с той же ошибкой. […]

BeautifulSoup: AttributeError: объект 'NavigableString' не имеет атрибута 'name'

Вы знаете, почему первый пример в учебнике BeautifulSoup http://www.crummy.com/software/BeautifulSoup/documentation.html#QuickStart дает AttributeError: 'NavigableString' object has no attribute 'name' ? Согласно этому ответу символы пробела в HTML приводят к проблеме. Я попробовал с источниками нескольких страниц, а один работал, другие выдавали ту же ошибку (я удалил пробелы). Можете ли вы объяснить, к чему относится «имя» и почему […]

ошибка неправильного исходного тега – Python, BeautifulSoup и Sipie – Ubuntu 10.04

Я только что установил python, mplayer, beautifulsoup и sipie, чтобы запустить Sirius на моей машине Ubuntu 10.04. Я следовал за некоторыми документами, которые кажутся простыми, но я сталкиваюсь с некоторыми проблемами. Я не знаком с Python, так что это может быть вне моей лиги. Я смог установить все, но затем работает sipie: /usr/bin/Sipie/Sipie/Config.py:12: DeprecationWarning: the […]

Использование BeautifulSoup для захвата всего HTML между двумя тегами

У меня есть HTML, который выглядит так: <h1>Title</h1> //a random amount of p/uls or tagless text <h1> Next Title</h1> Я хочу скопировать весь HTML с первого h1, на следующий h1. Как я могу это сделать?

Selenium Webdriver / Beautifulsoup + Веб-скребок + Ошибка 416

Я делаю веб-соскабливание с использованием selenium webdriver в Python с Proxy . Я хочу просматривать более 10 тыс. Страниц одного сайта с помощью этого скребка. Проблема заключается в использовании этого прокси-сервера. Я могу отправлять запрос только один раз. когда я отправляю другой запрос по той же ссылке или другой ссылке этого сайта, я получаю ошибку […]

Как сделать красивые суп-выходные объекты HTML?

Я пытаюсь дезинфицировать и XSS-доказательство ввода HTML-кода от клиента. Я использую Python 2.6 с красивым супом. Я анализирую ввод, разделяю все теги и атрибуты не в белом списке и преобразую дерево обратно в строку. Однако… >>> unicode(BeautifulSoup('text < text')) u'text < text' Для меня это не похоже на действительный HTML. И с моим стриптизером тегов […]

Разбор документа с помощью BeautifulSoup, не анализируя содержимое тегов <code>

Я пишу приложение для блога с Django. Я хочу, чтобы авторы комментариев использовали некоторые теги (например, <strong> , a и т. Д.), Но отключили все остальные. Кроме того, я хочу, чтобы они помещали код в теги <code>, а pygments анализировали их. Например, кто-то может написать этот комментарий: I like this article, but the third code […]

Могу ли я изменить способ сравнения ключей в питоне? Я хочу использовать оператор 'is' вместо ==

Предположим, у меня есть два объекта одного класса: objA и objB. Их отношения заключаются в следующем: (objA == objB) #true (objA is objB) #false Если я использую оба объекта в качестве ключей в питоне Python, они будут считаться одним и тем же ключом и перезаписывать друг друга. Есть ли способ переопределить диктатор-компаратор, чтобы использовать сравнение […]

beautifulsoup не распознает lxml

Я пытаюсь использовать lxml в качестве синтаксического анализа для BeautifulSoup, потому что по умолчанию MUCH медленнее, однако я получаю эту ошибку: soup = BeautifulSoup(html, "lxml") File "/home/rob/python/stock/local/lib/python2.7/site-packages/bs4/__init__.py", line 152, in __init__ % ",".join(features)) bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? Я удалил […]

 
Interesting Posts for Van-Lav
Python - лучший язык программирования в мире.