Tag: beautifulsoup

Совместимость с Python 3 от BeautifulSoup

Работает ли BeautifulSoup с Python 3? Если нет, то как скоро появится порт? Будет ли порт вообще? Google ничего не меняет (может быть, это потому, что я искал неправильную вещь?)

Красивый суп найти детей для определенного div

Я пытаюсь проанализировать веб-страницу, которая выглядит так: Python-> Beautiful Soup: Я пытаюсь извлечь содержимое выделенного td div. В настоящее время я могу получить все divs alltd = soup.findAll('td') for td in alltd: print td Но я пытаюсь сузить масштаб этого поиска в tds в классе «tablebox», который по-прежнему будет возвращать 30+, но более управляем числом […]

Как получить HTML из красивого супового объекта

У меня есть следующий список объектов bs4: >>> listing <div class="listingHeader"> <h2> …. >>> type(listing) <class 'bs4.element.Tag'> Я хочу извлечь исходный html в виде строки. Я пробовал: >>> a = listing.contents >>> type(a) <type 'list'> Так что это не сработает. Как я могу это сделать?

Как анализировать таблицу HTML с помощью рядов в Python?

Проблема Я пытаюсь проанализировать таблицу HTML с помощью rowspans в ней, как и в, я пытаюсь разобрать расписание моего колледжа. Я столкнулся с проблемой, когда, если последняя строка содержит строку rowspan, в следующей строке отсутствует TD, где rowpan теперь отсутствует TD. Я не знаю, как объяснить это, и я надеюсь, что смогу разобрать этот график. […]

Проверьте, присутствует ли атрибут в теге в BeautifulSoup

Я хотел бы получить все теги <script> в документе, а затем обработать каждый из них на основе наличия (или отсутствия) определенных атрибутов. Например, для каждого <script> , если атрибут присутствует, что-то делает; иначе, если bar атрибутов присутствует, сделайте что-то еще. Вот что я делаю сейчас: outputDoc = BeautifulSoup(''.join(output)) scriptTags = outputDoc.findAll('script', attrs = {'for' : […]

ImportError: нет модуля с именем BeautifulSoup

Я установил BeautifulSoup с помощью easy_install и попытался запустить следующий скрипт from BeautifulSoup import BeautifulSoup import re doc = ['<html><head><title>Page title</title></head>', '<body><p id="firstpara" align="center">This is paragraph <b>one</b>.', '<p id="secondpara" align="blah">This is paragraph <b>two</b>.', '</html>'] soup = BeautifulSoup(''.join(doc)) print soup.prettify() Но не знаю, почему это происходит Traceback (most recent call last): File "C:\Python27\reading and writing xml […]

BeautifulSoup, словарь из таблицы HTML

Я пытаюсь очистить данные таблицы с веб-сайта. Вот простая примерная таблица: t = '<html><table>' +\ '<tr><td class="label"> a </td> <td> 1 </td></tr>' +\ '<tr><td class="label"> b </td> <td> 2 </td></tr>' +\ '<tr><td class="label"> c </td> <td> 3 </td></tr>' +\ '<tr><td class="label"> d </td> <td> 4 </td></tr>' +\ '</table></html>' Желаемый результат синтаксического анализа – {' a […]

Хотите потянуть заголовок журнала с страницы RCSB, используя python & BeautifulSoup

Я пытаюсь получить конкретную информацию об исходном цитирующем документе в Банке данных о белках, который дал только 4-буквенный PDBID белка. Для этого я использую запросы библиотек python и BeautifulSoup. Чтобы попытаться создать код, я пошел на страницу для конкретного белка, в данном случае 1K48, а также сохранил HTML для страницы (нажав команду + s и […]

Извлечение комментариев из новостей

Мой вопрос похож на вопрос, заданный здесь: https://stackoverflow.com/questions/14599485/news-website-comment-analysis Я пытаюсь извлечь комментарии из любой статьи новостей. Например, у меня есть новостной url здесь: http://www.cnn.com/2013/09/24/politics/un-obama-foreign-policy/ Я пытаюсь использовать BeautifulSoup в python для извлечения комментариев. Однако кажется, что раздел комментариев встроен в iframe или загружен через javascript. Просмотр источника через firebug не показывает источник раздела комментариев. Но […]

как получить доступ к широте и долготе в скрипте с помощью beautifulsoup?

Я хочу получить широту и долготу с веб-страницы с помощью beautifulsoup, но они находятся в скрипте: //<![CDATA[ theForm.oldSubmit = theForm.submit; theForm.submit = WebForm_SaveScrollPositionSubmit; theForm.oldOnSubmit = theForm.onsubmit; theForm.onsubmit = WebForm_SaveScrollPositionOnSubmit; var GMapsProperties={};function getGMapElementById(mapId,GMapElementId){var _mapId=typeof(mapId)=='string'? mapId : mapId.getDiv().id;var overlayArray=GMapsProperties[_mapId]['overlayArray'];for(var i=0;i < overlayArray.length;i++){if(overlayArray[i][0]==GMapElementId){return overlayArray[i][1];}}return null;}function removeGMapElementById(mapId,GMapElementId){var _mapId=typeof(mapId)=='string'? mapId : mapId.getDiv().id;var overlayArray=GMapsProperties[_mapId]['overlayArray'];for(var i=0;i < overlayArray.length;i++){if(overlayArray[i][0]==GMapElementId){overlayArray.splice(i,1);return;}}}function closeWindows(mapId){for(var i=0;i<GMapsProperties[mapId]['windowArray'].length;i++){GMapsProperties[mapId]['windowArray'][i][1].close();}}var _sg=_sg ||{};_sg.cs=(function(){var […]

Python - лучший язык программирования в мире.