Tag: beautifulsoup

Python BeautifulSoup: синтаксический анализ нескольких таблиц с тем же именем класса

Я пытаюсь проанализировать некоторые таблицы с вики-страницы, например http://en.wikipedia.org/wiki/List_of_Bollywood_films_of_2014 . есть четыре таблицы с одним и тем же именем класса «wikitable». Когда я пишу: movieList= soup.find('table',{'class':'wikitable'}) rows = movieList.findAll('tr') Он отлично работает, но когда я пишу: movieList= soup.findAll('table',{'class':'wikitable'}) rows = movieList.findAll('tr') Это порождает ошибку: Traceback (most recent call last): File "C:\Python27\movieList.py", line 24, in <module> […]

Невозможно очистить текст от определенного элемента LI

Я очищаю этот URL . Мне нужно очистить основное содержимое страницы, например, Room Features и Internet Access Вот мой код: for h3s in Column: # Suppose this is div.RightColumn for index,test in enumerate(h3s.select("h3")): print("Feature title: "+str(test.text)) for v in h3s.select("ul")[index]: print(v.string.strip()) Этот код сбрасывает все <li> , но когда дело доходит до очистки Интернет-доступа, я […]

Проблема с памятью Python с помощью BeautifulSoup

Я решил эту проблему, но мне интересно, почему это было вызвано в первую очередь. Я использовал BeautifulSoup для определения этого диапазона с веб-страницы: span = <span id="ctl00_ContentPlaceHolder1_RestInfoReskin_lblRestName">Ally's Sizzlers</span> Затем я назначаю эту переменную: restaurant.name = span.contents Однако на каждом цикле это занимает 1 Мб, а около 20000 циклов. Сквозь проб и ошибок я столкнулся с […]

Список, не разрешающий .splitlines () – Python

Что мне нужно сделать, чтобы предотвратить ошибку: AttributeError: 'list' object has no attribute 'split lines' от здесь? Как преобразовать список, который у меня есть, в форму, которая может иметь splitlines ? import requests import re from bs4 import BeautifulSoup import csv #Read csv with open ("gyms4.csv") as file: reader = csv.reader(file) csvfilelist = [row[0] for […]

pip install BeautifulSoup ничего не происходит

Я пытаюсь установить BeautifulSoup4 и иметь проблемы с pip. Я установил pip, но когда я иду запускать pip install BeautifulSoup, ничего не происходит. Только новая линия появляется на CMD например C: \ Python27 \ Scripts> pip install BeautifulSoup C: \ python27 \ Scripts> У кого-нибудь есть идеи? Это Windows 7 кстати. Может быть, что-то очевидное, […]

Как удалить строку unicode из списка

Я пытаюсь удалить строки unicode «u» в моем списке строк. Список – это список участников с этого сайта http://www.boxofficemojo.com/yearly/chart/?yr=2013&p=.htm . У меня есть метод, который получает эти строки с этого сайта: def getActors(item_url): response = requests.get(item_url) soup = BeautifulSoup(response.content, "lxml") # or BeautifulSoup(response.content, "html5lib") tempActors = [] try: tempActors.append(soup.find(text="Actors:").find_parent("tr").find_all(text=True)[1:]) except AttributeError: tempActors.append("n/a") return tempActors Этот […]

BeautifulSoup: очистка различных наборов данных с одинаковым набором атрибутов в исходном коде

Я использую модуль BeautifulSoup для очистки общего количества подписчиков и общего количества твитов из учетной записи Twitter. Однако, когда я попытался проверить элементы соответствующих полей на веб-странице, я обнаружил, что оба поля заключены внутри одного набора атрибутов html: Читают <a class="ProfileNav-stat ProfileNav-stat–link u-borderUserColor u-textCenter js-tooltip js-nav u-textUserColor" data-nav="followers" href="/IAmJericho/followers" data-original-title="2,469,681 Followers"> <span class="ProfileNav-label">Followers</span> <span class="ProfileNav-value" […]

HTTPError: не найден в urllib2 и BeautifulSoup?

from lxml import html import requests # Initial attempt to scrape HTML from link using BeautifulSoup obama_4427 = requests.get('http://millercenter.org/president/obama/speech-4427') obama_4427_tree = html.fromstring(obama_4427.text) # The speech text itself is stored in the HTML with an Xpath # of '//*[@id="transcript"]/p' and is a <div> obama_4427_text = obama_4427_tree.xpath('//div[@id="transcript"]/p') print(obama_4427_text) import urllib2,sys from bs4 import BeautifulSoup,NavigableString obama_4427_url = 'http://millercenter.org/president/obama/speech-4427' […]

beautifulsoup с недопустимым html документом

Я пытаюсь проанализировать документ http://www.consilium.europa.eu/uedocs/cms_data/docs/pressdata/en/ecofin/5923en8.htm . Я хочу извлечь все перед Commission: ( Мне нужен Beautifulsoup, потому что вторым шагом является извлечение имен стран и людей ) Если я сделаю: import urllib import re from bs4 import BeautifulSoup url="http://www.consilium.europa.eu/uedocs/cms_data/docs/pressdata/en/ecofin/5923en8.htm" soup=BeautifulSoup(urllib.urlopen(url)) print soup.find_all(text=re.compile("Commission")) Единственный результат, который я получаю: [u'The Governments of the Member States and the […]

beautifulsoup4, правильный способ использования .find_all?

Если я проанализирую веб-сайт с использованием BS4 и из его исходного кода, я хочу напечатать текст «+ 26.67%», <font color="green"><b><nobr>+26.67%</nobr></b></font> Я был .find_all() с командой .find_all() ( http://www.crummy.com/software/BeautifulSoup/bs4/doc/ ) безрезультатно. Каков был бы правильный способ поиска исходного кода и распечатать только текст? мой код: import requests from bs4 import BeautifulSoup set_url = "*insert web address […]

Python - лучший язык программирования в мире.