Tag: beautifulsoup

Выделите точное местоположение содержимого в html для веб-скрепок urllib2 Beautiful Soup

Я новичок в веб-очистке, мало подвержен html-файловым системам и хотел узнать, есть ли более эффективный способ поиска необходимого содержимого в html-версии веб-страницы. В настоящее время я хочу просмотреть обзоры для продукта здесь: http://www.walmart.com/ip/29701960?wmlspartner=wlpa&adid=22222222227022069601&wl0=&wl1=g&wl2=c&wl3=34297254061&wl4=&wl5=pla&wl6=62272156621&veh=sem Для этого у меня есть следующий код: url = http://www.walmart.com/ip/29701960? wmlspartner=wlpa&adid=22222222227022069601&wl0=&wl1=g&wl2=c&wl3=34297254061&wl4=&wl5=pla&wl6=6227215 6621&veh=sem review_url = url #print review_url #————————————————————————- # Scrape the ratings […]

Проблема соскабливания со страницы

Обратившись к одному из моих предыдущих вопросов , я должен очистить отзывы (все отзывы) о гостинице, например, этот отель С помощью BeautifulSoap , что я сделал, я сначала получаю все ссылки на страницы обзора из разбивки на страницы в div, имеющие класс BVRRPager BVRRPageBasedPager , а затем просматривают обзоры со всех страниц. Проблема с BeautifulSoap […]

BeautifulSoup извлекает данные в div

Я просматривал предыдущие вопросы в течение часа и пробовал различные решения, но я не могу заставить это работать. Я извлек результаты, которые хочу получить с веб-сайта, теперь мне просто нужно разделить эти div для конкретной информации, которую я хочу. Результаты изолированы так: items=soup.findAll(id=re.compile("itembase")) Для каждого элемента я хочу извлечь, например, lat и long из этого […]

Исправить ошибку кодирования с помощью цикла в BeautifulSoup4?

Это последующая работа по фокусировке на конкретных результатах при очистке Twitter с помощью Python и Beautiful Soup 4? и использование Python для склеивания вложенных Div и Spans в Twitter? , Я не использую API-интерфейс Twitter, потому что он не смотрит на твиты хэштегом так далеко. EDIT: ошибка, описанная здесь, встречается только в Windows 7. Код […]

Красивый суп, ничего не возвращающий

Привет, я работаю над проектом для своей школы, который включает очищение HTML. Однако, когда я ищу таблицы, я не получаю никаких возвратов. Вот сегмент, который переживает эту проблему. Если вам нужна дополнительная информация, я был бы рад дать вам это from bs4 import BeautifulSoup import urllib2 import datetime #This section determines the date of the […]

BeautifulSoup не загружает файлы, как ожидалось

Я пытаюсь загрузить все .txt-файлы с этого веб-сайта со следующим кодом: from bs4 import BeautifulSoup as bs import urllib import urllib2 baseurl = "http://m-selig.ae.illinois.edu/props/volume-1/data/" soup = bs(urllib2.urlopen(baseurl), 'lxml') links = soup.findAll("a") for link in links: print link.text urllib.urlretrieve(baseurl+link.text, link.text) Когда я запускаю этот код, print(link.text) печатает правильные имена файлов, а каталог заполняется файлами с правильными […]

получить заголовок внутри тега ссылки в HTML с помощью beautifulsoup

Я извлекаю данные из https://data.gov.au/dataset?organization=reservebankofaustralia&_groups_limit=0&groups=business и получил результат, который я хотел, но теперь проблема заключается в следующем: выход, который я получаю, – это поддержка бизнеса и резервный банк из Aus …., не полный текст, я хочу напечатать весь текст не «…….» для всех. Я заменил строки 9 и 10 в ответ на jezrael, пожалуйста, обратитесь […]

Попытка собирать данные из локальных файлов с помощью BeautifulSoup

Я хочу запустить скрипт python для разбора html-файлов и сбора списка всех ссылок с атрибутом target="_blank" . Я пробовал следующее, но ничего не получал от bs4. SoupStrainer говорит, что в документах он будет принимать аргументы так же, как findAll и т. Д., Если это работает? Я пропустил какую-то глупую ошибку? import os import sys from […]

Почему этот тег пуст, когда разбирается с красивым супом?

Я разбираю эту страницу с красивым супом: https://au.finance.yahoo.com/q/is?s=AAPL Я пытаюсь получить общий доход за 27/09/2014 (42,123,000), который является одним из первых значений в заявлении в верхней части. Я проверил элемент в хром-инструментах и ​​обнаружил, что значение находится в таблице с именем класса yfnc_tabledata1 . Мой код python выглядит следующим образом: import requests import bs4 #get […]

Разбор тега скрипта с помощью dicts в BeautifulSoup

Работая над частичным ответом на этот вопрос, я наткнулся на bs4.element.Tag который представляет собой беспорядок вложенных dicts и списков ( s , ниже). Есть ли способ вернуть список URL-адресов, содержащихся в s без использования re.find_all ? Другие комментарии относительно структуры этого тега также полезны. from bs4 import BeautifulSoup import requests link = 'https://stackoverflow.com/jobs?med=site-ui&ref=jobs-tab&sort=p' r = […]

Python - лучший язык программирования в мире.