Tag: beautifulsoup

BeautifulSoup: очистка различных наборов данных с одинаковым набором атрибутов в исходном коде

Я использую модуль BeautifulSoup для очистки общего количества подписчиков и общего количества твитов из учетной записи Twitter. Однако, когда я попытался проверить элементы соответствующих полей на веб-странице, я обнаружил, что оба поля заключены внутри одного набора атрибутов html: Читают <a class="ProfileNav-stat ProfileNav-stat–link u-borderUserColor u-textCenter js-tooltip js-nav u-textUserColor" data-nav="followers" href="/IAmJericho/followers" data-original-title="2,469,681 Followers"> <span class="ProfileNav-label">Followers</span> <span class="ProfileNav-value" […]

HTTPError: не найден в urllib2 и BeautifulSoup?

from lxml import html import requests # Initial attempt to scrape HTML from link using BeautifulSoup obama_4427 = requests.get('http://millercenter.org/president/obama/speech-4427') obama_4427_tree = html.fromstring(obama_4427.text) # The speech text itself is stored in the HTML with an Xpath # of '//*[@id="transcript"]/p' and is a <div> obama_4427_text = obama_4427_tree.xpath('//div[@id="transcript"]/p') print(obama_4427_text) import urllib2,sys from bs4 import BeautifulSoup,NavigableString obama_4427_url = 'http://millercenter.org/president/obama/speech-4427' […]

beautifulsoup с недопустимым html документом

Я пытаюсь проанализировать документ http://www.consilium.europa.eu/uedocs/cms_data/docs/pressdata/en/ecofin/5923en8.htm . Я хочу извлечь все перед Commission: ( Мне нужен Beautifulsoup, потому что вторым шагом является извлечение имен стран и людей ) Если я сделаю: import urllib import re from bs4 import BeautifulSoup url="http://www.consilium.europa.eu/uedocs/cms_data/docs/pressdata/en/ecofin/5923en8.htm" soup=BeautifulSoup(urllib.urlopen(url)) print soup.find_all(text=re.compile("Commission")) Единственный результат, который я получаю: [u'The Governments of the Member States and the […]

beautifulsoup4, правильный способ использования .find_all?

Если я проанализирую веб-сайт с использованием BS4 и из его исходного кода, я хочу напечатать текст «+ 26.67%», <font color="green"><b><nobr>+26.67%</nobr></b></font> Я был .find_all() с командой .find_all() ( http://www.crummy.com/software/BeautifulSoup/bs4/doc/ ) безрезультатно. Каков был бы правильный способ поиска исходного кода и распечатать только текст? мой код: import requests from bs4 import BeautifulSoup set_url = "*insert web address […]

разбор недопустимого тега привязки с помощью BeautifulSoup или Regex

Мне нужен синтаксический анализ сырого документа, содержащего тег html anchor, но, к сожалению, он содержит недопустимый тег, например: <a href="A 4"drive bay">some text here</a> Я знаю, что значение href не может быть реальной ссылкой, но давайте просто оставим это таким образом. теперь мне нужно получить значение href 'A 4"drive bay' и текст ссылки 'some text […]

beautifulsoup: Название Парса Span

Я пытаюсь разобрать html-страницу, я успешно попал в подзону дерева html dom, но я застрял в месте, где есть теги span. Пример: я сначала разбираю страницу следующим образом: user_url = base_url + str(user_id) + "/" + display_name user_page = urllib2.urlopen(user_url) souping_page = bs(user_page) badges = souping_page.body.find('div', attrs={'class': 'badges'}) значки дадут мне следующее: <span><span title="3 gold […]

Beautiful Soup, анализирующий inline <div> и <p> в словаре

Я работаю над разбором довольно неприятного сайта. В принципе, есть встроенные divs (которые являются «заголовками») и тегами абзаца ниже (не в div), которые теоретически «дети» … Я хотел бы преобразовать это в словарь. Я не могу понять, как это сделать. Вот примерно то, что выглядит на сайте: <div><span>This should be dict key1</span></div> <p>This should be […]

Как разрешить hardcoding, когда более новая версия библиотеки, которую я использую, использует другое имя функции? – python

Есть ли лучший способ решить проблему совместимого с hardcoding кода, когда используемая библиотека использует другое имя функции? Кроме того, я не могу изменить код библиотеки. (потому что эта функция, которую я использую, есть EVERYWHERE в старой версии кода). Библиотека – BeautifulSoup 3 и 4. см. Раздел « Method Name » в http://www.crummy.com/software/BeautifulSoup/bs4/doc/. Первоначально у меня […]

При анализе определенного сайта происходит сбой процесса Python

Если вы просматриваете страницу HTML для изображений (с http://www.z-img.com ), и когда я загружаю страницу в BeautifulSoup (bs4), сбой Python. «Сведения о проблемах» показывают, что etree.pyd был «Fault Module Name», что означает его, вероятно, ошибку синтаксического анализа, но до сих пор я не могу полностью решить причину этого. Вот простейший код, с которым я могу […]

BeautifulSoup захватывает только один раз в пределах данного тега

Я хотел бы захватить родительский тег, если он содержит в нем маркер, скажем, MARKER. Так, например, у меня есть: <a> <b> <c> MARKER </c> </b> <b> <c> MARKER MARKER </c> </b> <b> <c> stuff </c> </b> </a> Я хотел бы захватить: <b> <c> MARKER </c> </b> <b> <c> MARKER MARKER </c> </b> Мой текущий код: […]

Python - лучший язык программирования в мире.