Tag: beautifulsoup

Python 2.7: Как использовать BeautifulSoup в Google App Engine?

Я стараюсь: from bs4 import BeautifulSoup и получил ошибку Traceback (most recent call last): File "/Applications/GoogleAppEngineLauncher.app/Contents/Resources/GoogleAppEngine-default.bundle/Contents/Resources/google_appengine/google/appengine/ext/admin/__init__.py", line 355, in post exec(compiled_code, globals()) File "<string>", line 1, in <module> ImportError: No module named bs4 Как я могу использовать его во Google App Engine runtime 2.7 ? Обновить Моя структура проекта выглядит так: flask-appengine-template/ docs/ licenses/ src/ […]

BeautifulSoup: получить содержимое как одну строку

Кто-нибудь знает элегантный способ получить все содержимое супового объекта в виде одной строки? На данный момент я получаю contents , которое, конечно же, список, а затем повторяю его: notices = soup.find("div", {"class" : "middlecontent"}) con = "" for content in notices.contents: con += str(content) print con Благодаря!

Возможно ли, чтобы BeautifulSoup работал без учета регистра?

Я пытаюсь извлечь Meta Description для выбранных веб-страниц. Но здесь я столкнулся с проблемой чувствительности к регистру BeautifulSoup. Поскольку некоторые из страниц имеют <meta name="Description а некоторые имеют <meta name="description . Моя проблема очень похожа на проблему Question on Stackoverflow Единственное различие заключается в том, что я не могу использовать lxml. Я должен придерживаться Beautifulsoup.

Совместимость с Python 3 от BeautifulSoup

Работает ли BeautifulSoup с Python 3? Если нет, то как скоро появится порт? Будет ли порт вообще? Google ничего не меняет (может быть, это потому, что я искал неправильную вещь?)

Красивый суп найти детей для определенного div

Я пытаюсь проанализировать веб-страницу, которая выглядит так: Python-> Beautiful Soup: Я пытаюсь извлечь содержимое выделенного td div. В настоящее время я могу получить все divs alltd = soup.findAll('td') for td in alltd: print td Но я пытаюсь сузить масштаб этого поиска в tds в классе «tablebox», который по-прежнему будет возвращать 30+, но более управляем числом […]

Как получить HTML из красивого супового объекта

У меня есть следующий список объектов bs4: >>> listing <div class="listingHeader"> <h2> …. >>> type(listing) <class 'bs4.element.Tag'> Я хочу извлечь исходный html в виде строки. Я пробовал: >>> a = listing.contents >>> type(a) <type 'list'> Так что это не сработает. Как я могу это сделать?

Как анализировать таблицу HTML с помощью рядов в Python?

Проблема Я пытаюсь проанализировать таблицу HTML с помощью rowspans в ней, как и в, я пытаюсь разобрать расписание моего колледжа. Я столкнулся с проблемой, когда, если последняя строка содержит строку rowspan, в следующей строке отсутствует TD, где rowpan теперь отсутствует TD. Я не знаю, как объяснить это, и я надеюсь, что смогу разобрать этот график. […]

Проверьте, присутствует ли атрибут в теге в BeautifulSoup

Я хотел бы получить все теги <script> в документе, а затем обработать каждый из них на основе наличия (или отсутствия) определенных атрибутов. Например, для каждого <script> , если атрибут присутствует, что-то делает; иначе, если bar атрибутов присутствует, сделайте что-то еще. Вот что я делаю сейчас: outputDoc = BeautifulSoup(''.join(output)) scriptTags = outputDoc.findAll('script', attrs = {'for' : […]

ImportError: нет модуля с именем BeautifulSoup

Я установил BeautifulSoup с помощью easy_install и попытался запустить следующий скрипт from BeautifulSoup import BeautifulSoup import re doc = ['<html><head><title>Page title</title></head>', '<body><p id="firstpara" align="center">This is paragraph <b>one</b>.', '<p id="secondpara" align="blah">This is paragraph <b>two</b>.', '</html>'] soup = BeautifulSoup(''.join(doc)) print soup.prettify() Но не знаю, почему это происходит Traceback (most recent call last): File "C:\Python27\reading and writing xml […]

BeautifulSoup, словарь из таблицы HTML

Я пытаюсь очистить данные таблицы с веб-сайта. Вот простая примерная таблица: t = '<html><table>' +\ '<tr><td class="label"> a </td> <td> 1 </td></tr>' +\ '<tr><td class="label"> b </td> <td> 2 </td></tr>' +\ '<tr><td class="label"> c </td> <td> 3 </td></tr>' +\ '<tr><td class="label"> d </td> <td> 4 </td></tr>' +\ '</table></html>' Желаемый результат синтаксического анализа – {' a […]

Python - лучший язык программирования в мире.