Tag: beautifulsoup

Извлечение неупорядоченного списка для определенного <div>: BeautifulSoup

Я очищаю эту веб-страницу, необходимую для моего приложения для Android. То, что я хотел бы сделать, – извлечь страны из атрибута href . Это то же самое, что и этот. Вот мой код: from bs4 import BeautifulSoup import urllib2 import re html_page = urllib2.urlopen("http://www.howtocallabroad.com/a.html") soup = BeautifulSoup(html_page) li = soup.select("ul > li > a") for […]

Как перемещаться по HTMl-страницам, которые имеют пейджинг для своего контента с помощью Python?

Я хочу обходить все записи таблицы (таблицу, которая описывает S / No., № документа и т. Д.) Со следующего веб-сайта и записать ее в Excel. Пока я могу сканировать данные только с первой страницы (всего 10 записей). Может кто-нибудь, пожалуйста, помогите мне с частью кода python для сканирования данных с первой до последней страницы на […]

как очистить информацию о продукте на веб-странице amazon с помощью beautifulsoup

Для веб-страницы: http://www.amazon.com/Harry-Potter-Prisoner-Azkaban-Rowling/dp/0439136369/ref=pd_sim_b_2?ie=UTF8&refRID=1MFBRAECGPMVZC5MJCWG. Как я мог очистить детали продукта и вывести dict в python. В приведенном выше случае вывод dict, который я хочу получить, будет: Age Range: 9 – 12 years Grade Level: 4 – 7 … … Я новичок в beautifulsoup и не нашел хорошего примера, чтобы это произошло. Я хочу привести пример.

Поддерживает ли метод BeautifulSoup .select () использование регулярного выражения?

Предположим, что я хочу проанализировать html с помощью BeautifulSoup, и я хотел использовать селектора css для поиска определенных тегов. Я бы «одолел» его, сделав from bs4 import BeautifulSoup soup = BeautifulSoup(html) Если бы я хотел найти тег, чей атрибут «id» имеет значение «abc», я могу сделать soup.select('#abc') Если бы я хотел найти все «дочерние» теги […]

Webscraping с Python: WinError 10061: целевой компьютер активно отказался

Я пишу код для очистки данных с веб-сайта. Код работал нормально, пока я не решил скрыть свой IP-адрес. Я получаю следующее сообщение об ошибке "urlopen error [WinError 10061] Соединение не может быть сделано, потому что целевая машина активно отказалась от него" Я отключил брандмауэры и антивирус на своей машине; Tor установлен и работает, подключение к […]

Python BeautifulSoup: синтаксический анализ нескольких таблиц с тем же именем класса

Я пытаюсь проанализировать некоторые таблицы с вики-страницы, например http://en.wikipedia.org/wiki/List_of_Bollywood_films_of_2014 . есть четыре таблицы с одним и тем же именем класса «wikitable». Когда я пишу: movieList= soup.find('table',{'class':'wikitable'}) rows = movieList.findAll('tr') Он отлично работает, но когда я пишу: movieList= soup.findAll('table',{'class':'wikitable'}) rows = movieList.findAll('tr') Это порождает ошибку: Traceback (most recent call last): File "C:\Python27\movieList.py", line 24, in <module> […]

Невозможно очистить текст от определенного элемента LI

Я очищаю этот URL . Мне нужно очистить основное содержимое страницы, например, Room Features и Internet Access Вот мой код: for h3s in Column: # Suppose this is div.RightColumn for index,test in enumerate(h3s.select("h3")): print("Feature title: "+str(test.text)) for v in h3s.select("ul")[index]: print(v.string.strip()) Этот код сбрасывает все <li> , но когда дело доходит до очистки Интернет-доступа, я […]

Проблема с памятью Python с помощью BeautifulSoup

Я решил эту проблему, но мне интересно, почему это было вызвано в первую очередь. Я использовал BeautifulSoup для определения этого диапазона с веб-страницы: span = <span id="ctl00_ContentPlaceHolder1_RestInfoReskin_lblRestName">Ally's Sizzlers</span> Затем я назначаю эту переменную: restaurant.name = span.contents Однако на каждом цикле это занимает 1 Мб, а около 20000 циклов. Сквозь проб и ошибок я столкнулся с […]

Список, не разрешающий .splitlines () – Python

Что мне нужно сделать, чтобы предотвратить ошибку: AttributeError: 'list' object has no attribute 'split lines' от здесь? Как преобразовать список, который у меня есть, в форму, которая может иметь splitlines ? import requests import re from bs4 import BeautifulSoup import csv #Read csv with open ("gyms4.csv") as file: reader = csv.reader(file) csvfilelist = [row[0] for […]

pip install BeautifulSoup ничего не происходит

Я пытаюсь установить BeautifulSoup4 и иметь проблемы с pip. Я установил pip, но когда я иду запускать pip install BeautifulSoup, ничего не происходит. Только новая линия появляется на CMD например C: \ Python27 \ Scripts> pip install BeautifulSoup C: \ python27 \ Scripts> У кого-нибудь есть идеи? Это Windows 7 кстати. Может быть, что-то очевидное, […]

 
Interesting Posts for Van-Lav

Как получить все комментарии / комментарии по Facebook OpenGraph

Как установить тайм-аут по умолчанию для Selenium Python WebDriver?

Python multiprocessing.cpu_count () возвращает '1' на 4-ядерном Nvidia Jetson TK1

Как сделать запросы urllib2 через Tor в Python?

Ошибка обратной записи Django: NoReverseMatch

Pandas: сортировать сводную таблицу

Как я могу украсить метод unittest Python, чтобы пропустить, если свойство, которое я ранее оценил, не является True?

Как найти коды Unicode, для которых шрифт имеет глифы, в системе на базе Debian?

Альтернатива 'для i в xrange (len (x))'

Как создать древовидную форму флажков?

Как найти все элементы в двумерном массиве numpy, который соответствует определенному списку?

Объединить отсортированные списки в python

Bash / Python: команда `echo` вставляет новую строку, действуя как вход в другую команду?

Списки / массивы Python: отключить отрицательную индексацию обертки в срезах

Переименование скользящего и агрегированного столбца в DataSphere PySpark

Python - лучший язык программирования в мире.