Tag: beautifulsoup

Поддерживает ли метод BeautifulSoup .select () использование регулярного выражения?

Предположим, что я хочу проанализировать html с помощью BeautifulSoup, и я хотел использовать селектора css для поиска определенных тегов. Я бы «одолел» его, сделав from bs4 import BeautifulSoup soup = BeautifulSoup(html) Если бы я хотел найти тег, чей атрибут «id» имеет значение «abc», я могу сделать soup.select('#abc') Если бы я хотел найти все «дочерние» теги […]

Webscraping с Python: WinError 10061: целевой компьютер активно отказался

Я пишу код для очистки данных с веб-сайта. Код работал нормально, пока я не решил скрыть свой IP-адрес. Я получаю следующее сообщение об ошибке "urlopen error [WinError 10061] Соединение не может быть сделано, потому что целевая машина активно отказалась от него" Я отключил брандмауэры и антивирус на своей машине; Tor установлен и работает, подключение к […]

Python BeautifulSoup: синтаксический анализ нескольких таблиц с тем же именем класса

Я пытаюсь проанализировать некоторые таблицы с вики-страницы, например http://en.wikipedia.org/wiki/List_of_Bollywood_films_of_2014 . есть четыре таблицы с одним и тем же именем класса «wikitable». Когда я пишу: movieList= soup.find('table',{'class':'wikitable'}) rows = movieList.findAll('tr') Он отлично работает, но когда я пишу: movieList= soup.findAll('table',{'class':'wikitable'}) rows = movieList.findAll('tr') Это порождает ошибку: Traceback (most recent call last): File "C:\Python27\movieList.py", line 24, in <module> […]

Невозможно очистить текст от определенного элемента LI

Я очищаю этот URL . Мне нужно очистить основное содержимое страницы, например, Room Features и Internet Access Вот мой код: for h3s in Column: # Suppose this is div.RightColumn for index,test in enumerate(h3s.select("h3")): print("Feature title: "+str(test.text)) for v in h3s.select("ul")[index]: print(v.string.strip()) Этот код сбрасывает все <li> , но когда дело доходит до очистки Интернет-доступа, я […]

Проблема с памятью Python с помощью BeautifulSoup

Я решил эту проблему, но мне интересно, почему это было вызвано в первую очередь. Я использовал BeautifulSoup для определения этого диапазона с веб-страницы: span = <span id="ctl00_ContentPlaceHolder1_RestInfoReskin_lblRestName">Ally's Sizzlers</span> Затем я назначаю эту переменную: restaurant.name = span.contents Однако на каждом цикле это занимает 1 Мб, а около 20000 циклов. Сквозь проб и ошибок я столкнулся с […]

Список, не разрешающий .splitlines () – Python

Что мне нужно сделать, чтобы предотвратить ошибку: AttributeError: 'list' object has no attribute 'split lines' от здесь? Как преобразовать список, который у меня есть, в форму, которая может иметь splitlines ? import requests import re from bs4 import BeautifulSoup import csv #Read csv with open ("gyms4.csv") as file: reader = csv.reader(file) csvfilelist = [row[0] for […]

pip install BeautifulSoup ничего не происходит

Я пытаюсь установить BeautifulSoup4 и иметь проблемы с pip. Я установил pip, но когда я иду запускать pip install BeautifulSoup, ничего не происходит. Только новая линия появляется на CMD например C: \ Python27 \ Scripts> pip install BeautifulSoup C: \ python27 \ Scripts> У кого-нибудь есть идеи? Это Windows 7 кстати. Может быть, что-то очевидное, […]

Как удалить строку unicode из списка

Я пытаюсь удалить строки unicode «u» в моем списке строк. Список – это список участников с этого сайта http://www.boxofficemojo.com/yearly/chart/?yr=2013&p=.htm . У меня есть метод, который получает эти строки с этого сайта: def getActors(item_url): response = requests.get(item_url) soup = BeautifulSoup(response.content, "lxml") # or BeautifulSoup(response.content, "html5lib") tempActors = [] try: tempActors.append(soup.find(text="Actors:").find_parent("tr").find_all(text=True)[1:]) except AttributeError: tempActors.append("n/a") return tempActors Этот […]

BeautifulSoup: очистка различных наборов данных с одинаковым набором атрибутов в исходном коде

Я использую модуль BeautifulSoup для очистки общего количества подписчиков и общего количества твитов из учетной записи Twitter. Однако, когда я попытался проверить элементы соответствующих полей на веб-странице, я обнаружил, что оба поля заключены внутри одного набора атрибутов html: Читают <a class="ProfileNav-stat ProfileNav-stat–link u-borderUserColor u-textCenter js-tooltip js-nav u-textUserColor" data-nav="followers" href="/IAmJericho/followers" data-original-title="2,469,681 Followers"> <span class="ProfileNav-label">Followers</span> <span class="ProfileNav-value" […]

HTTPError: не найден в urllib2 и BeautifulSoup?

from lxml import html import requests # Initial attempt to scrape HTML from link using BeautifulSoup obama_4427 = requests.get('http://millercenter.org/president/obama/speech-4427') obama_4427_tree = html.fromstring(obama_4427.text) # The speech text itself is stored in the HTML with an Xpath # of '//*[@id="transcript"]/p' and is a <div> obama_4427_text = obama_4427_tree.xpath('//div[@id="transcript"]/p') print(obama_4427_text) import urllib2,sys from bs4 import BeautifulSoup,NavigableString obama_4427_url = 'http://millercenter.org/president/obama/speech-4427' […]

 
Interesting Posts for Van-Lav

импорт и использование модуля, который использует многопроцессорность, не вызывая бесконечного цикла в Windows

Строки Python заканчиваются завершающим NULL?

Как установить атрибут класса с ожиданием в __init__

Численная сумма значений в подмассивах между парами индексов

Я хочу умножить два столбца в pandas DataFrame и добавить результат в новый столбец

Понимание основного метода python

Добавление поддержки SSL в SocketServer

Как показать Test_Question (String) на страницу? (PyQt / Python)

subprocess.Popen с использованием относительных путей

Есть ли причина, по которой строки Python не имеют метода длины строки?

есть ли API для работы python с чувствительными к давлению планшетами? (Mac OS, Linux)

Как я могу ответить на письмо с помощью Python imaplib и включить исходное сообщение?

HTTPError: не найден в urllib2 и BeautifulSoup?

Как ускорить работу urllib2 на Python при выполнении нескольких запросов

Печать numpy.float64 с полной точностью

Python - лучший язык программирования в мире.