Tag: beautifulsoup

Python: BeautifulSoup извлекает текст из тега привязки

Я хочу извлечь текст из следующего src тега изображения и текста тега привязки, который находится внутри данных класса div. Я успешно удаляю img src, но у меня возникают проблемы с извлечением текста из тега привязки. <a class="title" href="http://rads.stackoverflow.com/amzn/click/B0073HSK0K">Nikon COOLPIX L26 16.1 MP Digital Camera with 5x Zoom NIKKOR Glass Lens and 3-inch LCD (Red)</a> Вот […]

Python 2.7 Прекрасный экстракт Img Src Soup

for imgsrc in Soup.findAll('img', {'class': 'sizedProdImage'}): if imgsrc: imgsrc = imgsrc else: imgsrc = "ERROR" patImgSrc = re.compile('src="(.*)".*/>') findPatImgSrc = re.findall(patImgSrc, imgsrc) print findPatImgSrc ''' <img height="72" name="proimg" id="image" class="sizedProdImage" src="http://imagelocation" /> Это то, что я пытаюсь извлечь, и получаю: findimgsrcPat = re.findall(imgsrcPat, imgsrc) File "C:\Python27\lib\re.py", line 177, in findall return _compile(pattern, flags).findall(string) TypeError: expected […]

Получить данные из метатегов с помощью BeautifulSoup

Я пытаюсь прочитать описание из метатега, и это то, что я использовал soup.findAll(name="description") но он не работает, однако приведенный ниже код работает просто отлично soup.findAll(align="center") Как прочитать описание из метатега в начале документа?

Python 2.7: Как использовать BeautifulSoup в Google App Engine?

Я стараюсь: from bs4 import BeautifulSoup и получил ошибку Traceback (most recent call last): File "/Applications/GoogleAppEngineLauncher.app/Contents/Resources/GoogleAppEngine-default.bundle/Contents/Resources/google_appengine/google/appengine/ext/admin/__init__.py", line 355, in post exec(compiled_code, globals()) File "<string>", line 1, in <module> ImportError: No module named bs4 Как я могу использовать его во Google App Engine runtime 2.7 ? Обновить Моя структура проекта выглядит так: flask-appengine-template/ docs/ licenses/ src/ […]

BeautifulSoup: получить содержимое как одну строку

Кто-нибудь знает элегантный способ получить все содержимое супового объекта в виде одной строки? На данный момент я получаю contents , которое, конечно же, список, а затем повторяю его: notices = soup.find("div", {"class" : "middlecontent"}) con = "" for content in notices.contents: con += str(content) print con Благодаря!

Возможно ли, чтобы BeautifulSoup работал без учета регистра?

Я пытаюсь извлечь Meta Description для выбранных веб-страниц. Но здесь я столкнулся с проблемой чувствительности к регистру BeautifulSoup. Поскольку некоторые из страниц имеют <meta name="Description а некоторые имеют <meta name="description . Моя проблема очень похожа на проблему Question on Stackoverflow Единственное различие заключается в том, что я не могу использовать lxml. Я должен придерживаться Beautifulsoup.

Совместимость с Python 3 от BeautifulSoup

Работает ли BeautifulSoup с Python 3? Если нет, то как скоро появится порт? Будет ли порт вообще? Google ничего не меняет (может быть, это потому, что я искал неправильную вещь?)

Красивый суп найти детей для определенного div

Я пытаюсь проанализировать веб-страницу, которая выглядит так: Python-> Beautiful Soup: Я пытаюсь извлечь содержимое выделенного td div. В настоящее время я могу получить все divs alltd = soup.findAll('td') for td in alltd: print td Но я пытаюсь сузить масштаб этого поиска в tds в классе «tablebox», который по-прежнему будет возвращать 30+, но более управляем числом […]

Как получить HTML из красивого супового объекта

У меня есть следующий список объектов bs4: >>> listing <div class="listingHeader"> <h2> …. >>> type(listing) <class 'bs4.element.Tag'> Я хочу извлечь исходный html в виде строки. Я пробовал: >>> a = listing.contents >>> type(a) <type 'list'> Так что это не сработает. Как я могу это сделать?

Как анализировать таблицу HTML с помощью рядов в Python?

Проблема Я пытаюсь проанализировать таблицу HTML с помощью rowspans в ней, как и в, я пытаюсь разобрать расписание моего колледжа. Я столкнулся с проблемой, когда, если последняя строка содержит строку rowspan, в следующей строке отсутствует TD, где rowpan теперь отсутствует TD. Я не знаю, как объяснить это, и я надеюсь, что смогу разобрать этот график. […]

Python - лучший язык программирования в мире.