Tag: beautifulsoup

соскабливание другой таблицы с теми же классами с помощью beautifulsoup, python

я пытаюсь извлечь, используя красивый суп и питон, все шансы с этого сайта http://www.sportstats.com/soccer/italy/serie-a-2013-2014/sampdoria-napoli-zZAT2c14/#odds/1X2/s3 они делятся на разные таблицы в зависимости от типа, которым они являются. Пример: первая таблица под div id = "betType_1_2" представляет собой коэффициенты типа 1X2 "full time" Я попытался найти все class = "odds", но он также возвращает коэффициенты из других […]

BeautifulSoup Укажите столбец таблицы по номеру?

Используя Python 2.7 и BeautifulSoup 4, я соскабливаю имена песен из таблицы. Сейчас скрипт находит ссылки в строке таблицы; как я могу указать, я хочу первый столбец? В идеале я мог бы переключать номера, чтобы изменить выбранные. Сейчас код выглядит так: from bs4 import BeautifulSoup import requests r = requests.get("http://evamsharma.finosus.com/beatles/index.html") data = r.text soup = […]

Отправка запросов и очистка результатов из страниц aspx с помощью python?

Я пытаюсь получить результаты для пакета запросов на этой странице инструментов демографии: http://adlab.microsoft.com/Demographics-Prediction/DPUI.aspx Действие POST в форме вызывает одну и ту же страницу (_self) и, вероятно, публикует некоторые данные о событиях. Я читал в другом сообщении здесь, в stackoverflow, что для страниц aspx обычно требуются некоторые данные в представлении и валидации. Я просто сохраняю их […]

использование beautifulsoup 4 для xml вызывает странное поведение (проблемы с памятью?)

Я получаю странное поведение с этим >>> from bs4 import BeautifulSoup >>> smallfile = 'small.xml' #approx 600bytes >>> largerfile = 'larger.xml' #approx 2300 bytes >>> len(BeautifulSoup(open(smallfile, 'r'), ['lxml', 'xml'])) 1 >>> len(BeautifulSoup(open(largerfile, 'r'), ['lxml', 'xml'])) 0 Содержание small.xml: <?xml version="1.0" encoding="us-ascii"?> <Catalog> <CMoverMissile id="HunterSeekerMissile"> <MotionPhases index="1"> <Driver value="Guidance"/> <Acceleration value="3200"/> <MaxSpeed value="2.9531"/> <Clearance value="0.5"/> <ClearanceLookahead […]

Как вернуть обычный текст из Beautiful Soup вместо unicode

Я использую BeautifulSoup4, чтобы очистить эту веб-страницу, но я получаю странный текст unicode, который возвращает BeautifulSoup. Вот мой код: site = "http://en.wikipedia.org/wiki/"+a+"_"+str(b) hdr = {'User-Agent': 'Mozilla/5.0'} req = urllib2.Request(site,headers=hdr) req.add_header('Accept-enconding', 'gzip') #Header to check for gzip page = urllib2.urlopen(req) if page.info().get('Content-Encoding') == 'gzip': #IF checks gzip data = page.read() data = StringIO.StringIO(data) gzipper = gzip.GzipFile(fileobj=data) […]

Как извлечь таблицу html с помощью Beautifulsoup

Например, приведенный ниже фрагмент html: >>>soup <table> <tr><td class="abc">This is ABC</td> </tr> <tr><td class="firstdata"> data1_xxx </td> </tr> </table> <table> <tr><td class="efg">This is EFG</td> </tr> <tr><td class="firstdata"> data1_xxx </td> </tr> </table> Если я могу только найти таблицу желаний своим классом данных таблицы, >>>soup.findAll("td",{"class":"abc"}) [<td class="abc">This is ABC</td>] как я могу извлечь всю таблицу, как показано ниже? […]

Красивый суп – не удалось создать csv и текстовые файлы после очистки

Я пытаюсь извлечь URL-адреса статей со всех страниц веб-сайта. Только URL-адреса на первой странице неоднократно очищаются и сохраняются в файле csv. Информация из этих ссылок снова очищается одинаково и сохраняется в текстовом файле. Нужна помощь в этом вопросе. import requests from bs4 import BeautifulSoup import csv import lxml import urllib2 base_url = 'https://www.marketingweek.com/?s=big+data' response = […]

Python – проблема с акцентированными символами при очистке данных с веб-сайта

Я Nicola, новый пользователь Python, не имея реального опыта в программировании. Поэтому я действительно нуждаюсь в помощи с проблемой, которую у меня есть. Я написал код для очистки данных с этой веб-страницы: http://finanzalocale.interno.it/sitophp/showQuadro.php?codice=2080500230&tipo=CO&descr_ente=MODENA&anno=2009&cod_modello=CCOU&sigla=MO&tipo_cert=C&isEuro=0&quadro=02 В принципе, цель моего кода – очистить данные от всех таблиц на странице и записать их в txt-файл. Здесь я вставляю свой […]

Запросы Python и функция __doPostBack

Я борюсь с этим целый день. Мне нужно очистить данные с веб-сайта, на котором есть кнопка, где вам нужно щелкнуть, чтобы увидеть данные. Сама кнопка имеет вызов этой известной функции __dopostback () javascript, которая используется веб-сайтами ASP.NET <a id="ContentPlaceHolder1_lbCoach" class="btn btn-dark-blue" href="javascript:__doPostBack('ctl00$ContentPlaceHolder1$lbCoach','')"><i class="fa fa-eye"></i>&nbsp;Display HS Coach Info</a> Как следует из этого ответа, я должен подражать […]

BeautifulSoup4: Амперсанд в тексте

У меня проблема с использованием BeautifulSoup4 … (я довольно новичок Python / BeautifulSoup, так что простите меня, если я тупой) Почему следующий код: from bs4 import BeautifulSoup soup_ko = BeautifulSoup('<select><option>foo</option><option>bar & baz</option><option>qux</option></select>') soup_ok = BeautifulSoup('<select><option>foo</option><option>bar and baz</option><option>qux</option></select>') print soup_ko.find_all('option') print soup_ok.find_all('option') производят следующий результат: [<option>foo</option>, <option>bar &amp; baz</option>] [<option>foo</option>, <option>bar and baz</option>, <option>qux</option>] я ожидал […]

Python - лучший язык программирования в мире.