Tag: beautifulsoup

Запросы Python и функция __doPostBack

Я борюсь с этим целый день. Мне нужно очистить данные с веб-сайта, на котором есть кнопка, где вам нужно щелкнуть, чтобы увидеть данные. Сама кнопка имеет вызов этой известной функции __dopostback () javascript, которая используется веб-сайтами ASP.NET <a id="ContentPlaceHolder1_lbCoach" class="btn btn-dark-blue" href="javascript:__doPostBack('ctl00$ContentPlaceHolder1$lbCoach','')"><i class="fa fa-eye"></i>&nbsp;Display HS Coach Info</a> Как следует из этого ответа, я должен подражать […]

BeautifulSoup4: Амперсанд в тексте

У меня проблема с использованием BeautifulSoup4 … (я довольно новичок Python / BeautifulSoup, так что простите меня, если я тупой) Почему следующий код: from bs4 import BeautifulSoup soup_ko = BeautifulSoup('<select><option>foo</option><option>bar & baz</option><option>qux</option></select>') soup_ok = BeautifulSoup('<select><option>foo</option><option>bar and baz</option><option>qux</option></select>') print soup_ko.find_all('option') print soup_ok.find_all('option') производят следующий результат: [<option>foo</option>, <option>bar &amp; baz</option>] [<option>foo</option>, <option>bar and baz</option>, <option>qux</option>] я ожидал […]

BeautifulSoup в Python не разбирается правильно

Я запускаю Python 2.7.5 и использую встроенный синтаксический анализатор html для того, что я собираюсь описать. Задача, которую я пытаюсь выполнить, – взять кусок html, который по сути является рецептом. Вот пример. html_chunk = "<h1>Miniature Potato Knishes</h1><p>Posted by bettyboop50 at recipegoldmine.com May 10, 2001</p><p>Makes about 42 miniature knishes</p><p>These are just yummy for your tummy!</p><p>3 cups […]

Получите содержимое (полное текста) из абзаца красивый суп

Я хочу извлечь содержимое (полное текста) абзаца из веб-страниц новостей, у меня есть набор URL-адресов, из которых он должен извлекать только содержимое абзацев. Когда я использую код ниже, он дает мне всю html-страницу. Вот мой код import urllib2 import urllib from cookielib import CookieJar from bs4 import BeautifulSoup cj = CookieJar() opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) p […]

Статья соскабливание с помощью beautifulsoup: очистка всех тегов <p>

Я написал сценарий, который вытягивает абзацы из статей и записывает их в файл. Для некоторых статей он не будет тянуть каждый абзац. Здесь я потерялся. Любые указания будут глубоко оценены. Я включил ссылку на конкретную статью, где она не тянет всю информацию. Это сбрасывает все до первого цитируемого предложения. URL: http://www.reuters.com/article/2014/03/06/us-syria-crisis-assad-insight-idUSBREA250SD20140306 # Ask user to […]

Python Web Scraping; Красивый суп

Это было рассмотрено в этом сообщении: веб-скребок Python с использованием тегов HTML с атрибутами Но я не смог сделать что-то подобное для этой веб-страницы: http://www.expatistan.com/cost-of-living/comparison/melbourne/auckland ? Я пытаюсь очистить значения: <td class="price city-2"> NZ$15.62 <span style="white-space:nowrap;">(AU$12.10)</span> </td> <td class="price city-1"> AU$15.82 </td> В основном цена города-2 и цена города-1 (15,62 доллара США и 15,82 австралийских […]

Получение стиля тега <tr> с помощью BeautifulSoup

Я очищаю страницу и из таблицы на этой странице я получаю все элементы <tr> например: r = requests.get("http://lol.esportswikis.com/wiki/G2_Esports/Match_History") s = BeautifulSoup(r.content, "lxml") tr = s.find_all("table", class_="wikitable sortable")[0].find_all("tr")[3:] print tr[0] который выводит: <tr style="background-color:#C6EFCE"><td>…</td> … <td>…</td></tr> Теперь я пытаюсь получить стиль <tr> , но я понятия не имею, как это сделать. Если я это сделаю, например: […]

Красивый суп бросает `IndexError`

Я очищаю сайт, используя Python 2.7 и Beautiful Soup 3.2 . Я новичок в обоих языках, но из документации я немного начал. Я читаю следующие документы: http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html#contents http://thepcspy.com/read/scraping-websites-with-python/ Что я делаю и имею сейчас (часть, которая терпит неудачу): # Import the classes that are needed import urllib2 from BeautifulSoup import BeautifulSoup # URL to scrape […]

Красивый суп: доступ к <li> элементам из <ul> без id

Я пытаюсь очистить людей, у которых есть дни рождения на этой странице в Википедии Вот существующий код: hdr = {'User-Agent': 'Mozilla/5.0'} site = "http://en.wikipedia.org/wiki/"+"january"+"_"+"1" req = urllib2.Request(site,headers=hdr) page = urllib2.urlopen(req) soup = BeautifulSoup(page) print soup Все это прекрасно работает, и я получаю всю HTML-страницу, но мне нужны конкретные данные, и я не знаю, как получить […]

Выделите точное местоположение содержимого в html для веб-скрепок urllib2 Beautiful Soup

Я новичок в веб-очистке, мало подвержен html-файловым системам и хотел узнать, есть ли более эффективный способ поиска необходимого содержимого в html-версии веб-страницы. В настоящее время я хочу просмотреть обзоры для продукта здесь: http://www.walmart.com/ip/29701960?wmlspartner=wlpa&adid=22222222227022069601&wl0=&wl1=g&wl2=c&wl3=34297254061&wl4=&wl5=pla&wl6=62272156621&veh=sem Для этого у меня есть следующий код: url = http://www.walmart.com/ip/29701960? wmlspartner=wlpa&adid=22222222227022069601&wl0=&wl1=g&wl2=c&wl3=34297254061&wl4=&wl5=pla&wl6=6227215 6621&veh=sem review_url = url #print review_url #————————————————————————- # Scrape the ratings […]

Interesting Posts

использование genfromtxt для разделения данных

Как добавить заголовки http в пеной 0.3.6?

Google API Python Client – AccessTokenRefreshError

104, «Ошибка сброса соединения с помощью одноранговой сети», или Когда закрытие сокета приводит к RST, а не FIN?

Создание динамического обновленного графика с помощью Python

subprocess.call не работает от pyCharm

Нормализация списка имен в Python

Есть ли ключ для пространства имен по умолчанию при создании словаря для использования с xml.etree.ElementTree.findall () в Python?

Python + Regex: AttributeError: объект «NoneType» не имеет атрибутных «групп»,

Что самое близкое к WordPress в python вместо php?

Многопроцессорный пул с итератором

python: переопределение класса "is"

Как переписать массив внутри h5-файла с помощью h5py

Как отделить слова, используя регулярное выражение в python, рассматривая слова с апострофами?

Как решить несколько независимых временных рядов одновременно с использованием модели линейной регрессии scikit

Python - лучший язык программирования в мире.