Tag: beautifulsoup

ImportError: нет модуля с именем BeautifulSoup

Я установил BeautifulSoup с помощью easy_install и попытался запустить следующий скрипт from BeautifulSoup import BeautifulSoup import re doc = ['<html><head><title>Page title</title></head>', '<body><p id="firstpara" align="center">This is paragraph <b>one</b>.', '<p id="secondpara" align="blah">This is paragraph <b>two</b>.', '</html>'] soup = BeautifulSoup(''.join(doc)) print soup.prettify() Но не знаю, почему это происходит Traceback (most recent call last): File "C:\Python27\reading and writing xml […]

BeautifulSoup, словарь из таблицы HTML

Я пытаюсь очистить данные таблицы с веб-сайта. Вот простая примерная таблица: t = '<html><table>' +\ '<tr><td class="label"> a </td> <td> 1 </td></tr>' +\ '<tr><td class="label"> b </td> <td> 2 </td></tr>' +\ '<tr><td class="label"> c </td> <td> 3 </td></tr>' +\ '<tr><td class="label"> d </td> <td> 4 </td></tr>' +\ '</table></html>' Желаемый результат синтаксического анализа – {' a […]

Хотите потянуть заголовок журнала с страницы RCSB, используя python & BeautifulSoup

Я пытаюсь получить конкретную информацию об исходном цитирующем документе в Банке данных о белках, который дал только 4-буквенный PDBID белка. Для этого я использую запросы библиотек python и BeautifulSoup. Чтобы попытаться создать код, я пошел на страницу для конкретного белка, в данном случае 1K48, а также сохранил HTML для страницы (нажав команду + s и […]

Извлечение комментариев из новостей

Мой вопрос похож на вопрос, заданный здесь: https://stackoverflow.com/questions/14599485/news-website-comment-analysis Я пытаюсь извлечь комментарии из любой статьи новостей. Например, у меня есть новостной url здесь: http://www.cnn.com/2013/09/24/politics/un-obama-foreign-policy/ Я пытаюсь использовать BeautifulSoup в python для извлечения комментариев. Однако кажется, что раздел комментариев встроен в iframe или загружен через javascript. Просмотр источника через firebug не показывает источник раздела комментариев. Но […]

как получить доступ к широте и долготе в скрипте с помощью beautifulsoup?

Я хочу получить широту и долготу с веб-страницы с помощью beautifulsoup, но они находятся в скрипте: //<![CDATA[ theForm.oldSubmit = theForm.submit; theForm.submit = WebForm_SaveScrollPositionSubmit; theForm.oldOnSubmit = theForm.onsubmit; theForm.onsubmit = WebForm_SaveScrollPositionOnSubmit; var GMapsProperties={};function getGMapElementById(mapId,GMapElementId){var _mapId=typeof(mapId)=='string'? mapId : mapId.getDiv().id;var overlayArray=GMapsProperties[_mapId]['overlayArray'];for(var i=0;i < overlayArray.length;i++){if(overlayArray[i][0]==GMapElementId){return overlayArray[i][1];}}return null;}function removeGMapElementById(mapId,GMapElementId){var _mapId=typeof(mapId)=='string'? mapId : mapId.getDiv().id;var overlayArray=GMapsProperties[_mapId]['overlayArray'];for(var i=0;i < overlayArray.length;i++){if(overlayArray[i][0]==GMapElementId){overlayArray.splice(i,1);return;}}}function closeWindows(mapId){for(var i=0;i<GMapsProperties[mapId]['windowArray'].length;i++){GMapsProperties[mapId]['windowArray'][i][1].close();}}var _sg=_sg ||{};_sg.cs=(function(){var […]

Требуется помощь в отладке веб-искателя Python

Я не могу запустить поисковый робот (named searchengine.py ), несмотря на мои лучшие усилия за последние пару часов. Кажется, он не смог успешно индексировать страницы по мере их появления. Я дам вам полный код искателя. Вид ошибок, которые я получаю, выглядит ниже Indexing http://www.4futureengineers.com/company.html Could not parse page http://www.4futureengineers.com/company.html Я searchengine.py , введя следующие команды […]

Извлечение неупорядоченного списка для определенного <div>: BeautifulSoup

Я очищаю эту веб-страницу, необходимую для моего приложения для Android. То, что я хотел бы сделать, – извлечь страны из атрибута href . Это то же самое, что и этот. Вот мой код: from bs4 import BeautifulSoup import urllib2 import re html_page = urllib2.urlopen("http://www.howtocallabroad.com/a.html") soup = BeautifulSoup(html_page) li = soup.select("ul > li > a") for […]

Как перемещаться по HTMl-страницам, которые имеют пейджинг для своего контента с помощью Python?

Я хочу обходить все записи таблицы (таблицу, которая описывает S / No., № документа и т. Д.) Со следующего веб-сайта и записать ее в Excel. Пока я могу сканировать данные только с первой страницы (всего 10 записей). Может кто-нибудь, пожалуйста, помогите мне с частью кода python для сканирования данных с первой до последней страницы на […]

как очистить информацию о продукте на веб-странице amazon с помощью beautifulsoup

Для веб-страницы: http://www.amazon.com/Harry-Potter-Prisoner-Azkaban-Rowling/dp/0439136369/ref=pd_sim_b_2?ie=UTF8&refRID=1MFBRAECGPMVZC5MJCWG. Как я мог очистить детали продукта и вывести dict в python. В приведенном выше случае вывод dict, который я хочу получить, будет: Age Range: 9 – 12 years Grade Level: 4 – 7 … … Я новичок в beautifulsoup и не нашел хорошего примера, чтобы это произошло. Я хочу привести пример.

Поддерживает ли метод BeautifulSoup .select () использование регулярного выражения?

Предположим, что я хочу проанализировать html с помощью BeautifulSoup, и я хотел использовать селектора css для поиска определенных тегов. Я бы «одолел» его, сделав from bs4 import BeautifulSoup soup = BeautifulSoup(html) Если бы я хотел найти тег, чей атрибут «id» имеет значение «abc», я могу сделать soup.select('#abc') Если бы я хотел найти все «дочерние» теги […]

Python - лучший язык программирования в мире.