Tag: beautifulsoup

Python – проблема с акцентированными символами при очистке данных с веб-сайта

Я Nicola, новый пользователь Python, не имея реального опыта в программировании. Поэтому я действительно нуждаюсь в помощи с проблемой, которую у меня есть. Я написал код для очистки данных с этой веб-страницы: http://finanzalocale.interno.it/sitophp/showQuadro.php?codice=2080500230&tipo=CO&descr_ente=MODENA&anno=2009&cod_modello=CCOU&sigla=MO&tipo_cert=C&isEuro=0&quadro=02 В принципе, цель моего кода – очистить данные от всех таблиц на странице и записать их в txt-файл. Здесь я вставляю свой […]

Запросы Python и функция __doPostBack

Я борюсь с этим целый день. Мне нужно очистить данные с веб-сайта, на котором есть кнопка, где вам нужно щелкнуть, чтобы увидеть данные. Сама кнопка имеет вызов этой известной функции __dopostback () javascript, которая используется веб-сайтами ASP.NET <a id="ContentPlaceHolder1_lbCoach" class="btn btn-dark-blue" href="javascript:__doPostBack('ctl00$ContentPlaceHolder1$lbCoach','')"><i class="fa fa-eye"></i>&nbsp;Display HS Coach Info</a> Как следует из этого ответа, я должен подражать […]

BeautifulSoup4: Амперсанд в тексте

У меня проблема с использованием BeautifulSoup4 … (я довольно новичок Python / BeautifulSoup, так что простите меня, если я тупой) Почему следующий код: from bs4 import BeautifulSoup soup_ko = BeautifulSoup('<select><option>foo</option><option>bar & baz</option><option>qux</option></select>') soup_ok = BeautifulSoup('<select><option>foo</option><option>bar and baz</option><option>qux</option></select>') print soup_ko.find_all('option') print soup_ok.find_all('option') производят следующий результат: [<option>foo</option>, <option>bar &amp; baz</option>] [<option>foo</option>, <option>bar and baz</option>, <option>qux</option>] я ожидал […]

BeautifulSoup в Python не разбирается правильно

Я запускаю Python 2.7.5 и использую встроенный синтаксический анализатор html для того, что я собираюсь описать. Задача, которую я пытаюсь выполнить, – взять кусок html, который по сути является рецептом. Вот пример. html_chunk = "<h1>Miniature Potato Knishes</h1><p>Posted by bettyboop50 at recipegoldmine.com May 10, 2001</p><p>Makes about 42 miniature knishes</p><p>These are just yummy for your tummy!</p><p>3 cups […]

Получите содержимое (полное текста) из абзаца красивый суп

Я хочу извлечь содержимое (полное текста) абзаца из веб-страниц новостей, у меня есть набор URL-адресов, из которых он должен извлекать только содержимое абзацев. Когда я использую код ниже, он дает мне всю html-страницу. Вот мой код import urllib2 import urllib from cookielib import CookieJar from bs4 import BeautifulSoup cj = CookieJar() opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) p […]

Статья соскабливание с помощью beautifulsoup: очистка всех тегов <p>

Я написал сценарий, который вытягивает абзацы из статей и записывает их в файл. Для некоторых статей он не будет тянуть каждый абзац. Здесь я потерялся. Любые указания будут глубоко оценены. Я включил ссылку на конкретную статью, где она не тянет всю информацию. Это сбрасывает все до первого цитируемого предложения. URL: http://www.reuters.com/article/2014/03/06/us-syria-crisis-assad-insight-idUSBREA250SD20140306 # Ask user to […]

Python Web Scraping; Красивый суп

Это было рассмотрено в этом сообщении: веб-скребок Python с использованием тегов HTML с атрибутами Но я не смог сделать что-то подобное для этой веб-страницы: http://www.expatistan.com/cost-of-living/comparison/melbourne/auckland ? Я пытаюсь очистить значения: <td class="price city-2"> NZ$15.62 <span style="white-space:nowrap;">(AU$12.10)</span> </td> <td class="price city-1"> AU$15.82 </td> В основном цена города-2 и цена города-1 (15,62 доллара США и 15,82 австралийских […]

Получение стиля тега <tr> с помощью BeautifulSoup

Я очищаю страницу и из таблицы на этой странице я получаю все элементы <tr> например: r = requests.get("http://lol.esportswikis.com/wiki/G2_Esports/Match_History") s = BeautifulSoup(r.content, "lxml") tr = s.find_all("table", class_="wikitable sortable")[0].find_all("tr")[3:] print tr[0] который выводит: <tr style="background-color:#C6EFCE"><td>…</td> … <td>…</td></tr> Теперь я пытаюсь получить стиль <tr> , но я понятия не имею, как это сделать. Если я это сделаю, например: […]

Красивый суп бросает `IndexError`

Я очищаю сайт, используя Python 2.7 и Beautiful Soup 3.2 . Я новичок в обоих языках, но из документации я немного начал. Я читаю следующие документы: http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html#contents http://thepcspy.com/read/scraping-websites-with-python/ Что я делаю и имею сейчас (часть, которая терпит неудачу): # Import the classes that are needed import urllib2 from BeautifulSoup import BeautifulSoup # URL to scrape […]

Красивый суп: доступ к <li> элементам из <ul> без id

Я пытаюсь очистить людей, у которых есть дни рождения на этой странице в Википедии Вот существующий код: hdr = {'User-Agent': 'Mozilla/5.0'} site = "http://en.wikipedia.org/wiki/"+"january"+"_"+"1" req = urllib2.Request(site,headers=hdr) page = urllib2.urlopen(req) soup = BeautifulSoup(page) print soup Все это прекрасно работает, и я получаю всю HTML-страницу, но мне нужны конкретные данные, и я не знаю, как получить […]

Python - лучший язык программирования в мире.