Tag: beautifulsoup

Как написать скребковый контент в файл CSV?

Мне нужна помощь, чтобы сохранить выход из базового веб-скребка в файл CSV. Вот код: from urllib.request import urlopen from bs4 import BeautifulSoup import csv html_ = urlopen("some_url") bsObj_ = BeautifulSoup(html_, "html.parser") nameList_ = bsObj_2.findAll("div", {"class":"row proyecto_name_venta"}) for name in nameList_: print(name.get_text()) В частности, я хочу сохранить name.get_text() в файле CSV.

'ascii' кодек не может декодировать байт 0xcb, делая bs

Я сохраняю XML-страницу локально из API Merriam-Webster, позвольте мне дать вам URL-адрес: http://www.dictionaryapi.com/api/v1/references/collegiate/xml/apple?key=bf534d02-bf4e-49bc -b43f-37f68a0bf4fd Это был пример. Я urlretrieve его из URL и сохранить его как XML-файл. Теперь я хочу открыть его, но UnicodeDecodeError . Я сделал : page = open('test.xml') bs = BeautifulSoup(page) Затем происходит следующая ошибка: UnicodeDecodeError: 'ascii' codec can't decode byte 0xcb […]

Красивый суп просто извлекает заголовок стола

Я хочу извлечь информацию из таблицы на следующем веб-сайте, используя красивый суп в python 3.5. http://www.askapatient.com/viewrating.asp?drug=19839&name=ZOLOFT Сначала мне нужно сохранить веб-страницу, так как моя программа должна работать автономно. Я сохранил веб-страницу на своем компьютере, и я использовал следующие коды для извлечения информации о таблице. Но проблема в том, что код просто извлекает заголовок таблицы. Это […]

Как извлечь значения с помощью BeautifulSoup без класса

html-код: <td class="_480u"> <div class="clearfix"> <div> Female </div> </div> </td> Я хотел получить значение «Женщина» в качестве выхода. Я попробовал bs.findAll('div',{'class':'clearfix'}) ; bs.findAll('tag',{'class':'_480u'}) Но эти классы находятся по всему моему html-коду, а выход – большой список. Я хотел включить {td -> class = ".." и div -> class = ".."} в свой поиск, чтобы получить […]

BeautifulSoup возвращает , когда я запускаю его

Я использую Beautiful soup с python для получения данных о погоде с веб-сайта. Вот как выглядит веб-сайт: <channel> <title>2 Hour Forecast</title> <source>Meteorological Services Singapore</source> <description>2 Hour Forecast</description> <item> <title>Nowcast Table</title> <category>Singapore Weather Conditions</category> <forecastIssue date="18-07-2016" time="03:30 PM"/> <validTime>3.30 pm to 5.30 pm</validTime> <weatherForecast> <area forecast="TL" lat="1.37500000" lon="103.83900000" name="Ang Mo Kio"/> <area forecast="SH" lat="1.32100000" lon="103.92400000" name="Bedok"/> […]

BeautifulSoup найдет следующий конкретный тег после найденного тега

Учитывая следующее (упрощенное из более крупного документа) <tr class="row-class"> <td>Age</td> <td>16</td> </tr> <tr class="row-class"> <td>Height</td> <td>5.6</td> </tr> <tr class="row-class"> <td>Weight</td> <td>103.4</td> </tr> Я попытался вернуть 16 из соответствующей строки, используя bs4 и lxml . Проблема заключается в том, что между двумя td тегами существует Navigable String , так что page.find_all("tr", {"class":"row-class"}) дает результат с result[0] […]

Сторонние библиотеки и Py2exe

Как я могу пообщаться, скажем, Красивый суп в exe вместе с моим кодом, используя py2exe? Код, который я использую для моего setup.py сейчас from distutils.core import setup import py2exe # equivalent command line with options is: # python setup.py py2exe –compressed –bundle-files=2 –dist-dir="my/dist/dir" –dll-excludes="w9xpopen.exe" options = {'py2exe': { 'compressed':1, 'bundle_files': 1, 'dist_dir': "exe/dist/dir" 'dll_excludes' }} […]

Несмотря на кодировку utf8, некоторые символы не могут быть распознаны

Я пытаюсь очистить RSS с заголовком новостей, как это: <title>Photo of iceberg that is believed to have sunk Titanic sold at auction for £21,000 alongside &amp;#039;world&amp;#039;s most valuable biscuit&amp;#039;</title> Это эффективно, как я использую Beautiful Soup, чтобы очистить его: soup = BeautifulSoup(xml, 'xml') start = soup.findAll('item') for i in start: news, is_created = News.create_or_update(news_id, head_line=i.title.text.encode('utf-8').strip(), […]

Скремблирование второй страницы веб-сайта в Python не работает

Скажем, я хочу очистить данные здесь . Я могу сделать это красиво, используя urlopen и BeautifulSoup в Python 2.7. Теперь, если я хочу очистить данные со второй страницы с этим адресом . Я получаю данные с первой страницы! Я просмотрел источник страницы второй страницы, используя «источник страницы просмотра» Chrome, и содержимое принадлежит первой странице! Как […]

использование регулярных выражений на красивых тегах супа

Я недавно использовал красивый суп 4, и я пытался понять некоторые основы этого (по какой-то причине я был в порядке с bs3.x). Так, например, давайте начнем с чего-то простого: data=soup.find_all('h2') что дает мне что-то вроде: <h2><a href=\"/accurate-data/210-0023.prd?pageLevel=&amp;skuId=210-0023\">more-accurate-data</a></h2> что хорошо. Но когда я хочу повторить строку выше, используя что-то вдоль линий off (при условии, что вышеуказанное […]

Python - лучший язык программирования в мире.