Tag: beautifulsoup

Различия в ClearSoup – lxml и html5lib

Я использую BeautifulSoup 4 с Python 2.7 . Я хотел бы извлечь некоторые элементы с веб-сайта (количество, см. Пример ниже). По какой-то причине анализатор lxml не позволяет мне извлекать все нужные элементы со страницы. Он будет печатать только первые три элемента. Я пытаюсь использовать парсер html5lib, чтобы узнать, могу ли я извлечь все из них. […]

python: скребок поиска Google с помощью BeautifulSoup

Цель: передать строку поиска для поиска в google и scrape url, название и небольшое описание, которое будет опубликовано вместе с заголовком url. У меня есть следующий код, и на данный момент мой код дает только первые 10 результатов, который является лимитом Google по умолчанию для одной страницы. Я не уверен, как реально обрабатывать разбиение на […]

lxml эквивалент синтаксиса BeautifulSoup "OR"?

Я конвертирую некоторый код анализа html из BeautifulSoup в lxml. Я пытаюсь вычислить эквивалентный синтаксис lxml для следующего оператора BeautifullSoup: soup.find('a', {'class': ['current zzt', 'zzt']}) В основном я хочу найти все теги «a» в документе, которые имеют атрибут класса «текущий zzt» или «zzt». BeautifulSoup позволяет передавать в список, словарь или даже обычный экспресс, чтобы выполнить […]

Извлечение текстового узла внутри тега с дочерним элементом в beautifulsoup4

HTML, который я обрабатываю и очищаю, имеет следующий код: <li> <span> 929</span> Serve Returned </li> Как я могу извлечь только текстовый узел <li> , «serve return» в этом случае с помощью Beautifulsoup ? .string не работает, поскольку <li> имеет дочерний элемент, а .text возвращает текст внутри <span> .

Очистите только текст, внутри элемента html, который имеет класс, используя красивый суп

Я пытаюсь очистить страницу, используя BeatifulSoup import urllib2 from bs4 import BeautifulSoup url='http://www.xpn.org/playlists/xpn-playlist' page = urllib2.urlopen(url) soup = BeautifulSoup(page.read()) for link in soup.find_all("li", class_="song"): print link Проблема заключается в том, что текст, который я хотел бы вернуть, не заключен в его собственный тег html <li class="song"> <a href="/default.htm" onclick="return clickreturnvalue() " onmouseout="delayhidemenu()" onmouseover="dropdownmenu(this, event, menu1, […]

Как выполнить синтаксический анализ через бесконечную страницу прокрутки (например, Wallbase.cc/search/sky) с помощью Python?

Не уверен, есть ли что-нибудь с Mechanize или BeautifulSoup, которые могли бы помочь. Любые предложения будут ценны!

Как я могу захватить ряды данных из файла xml или tcx

Я хочу обрабатывать данные из .tcx-файла (xml-формы) между конкретными тегами с помощью Python. Формат файла выглядит следующим образом. <Track> <Trackpoint> <Time>2015-08-29T22:04:39.000Z</Time> <Position> <LatitudeDegrees>37.198049426078796</LatitudeDegrees> <LongitudeDegrees>127.07204628735781</LongitudeDegrees> </Position> <AltitudeMeters>34.79999923706055</AltitudeMeters> <DistanceMeters>7.309999942779541</DistanceMeters> <HeartRateBpm> <Value>102</Value> </HeartRateBpm> <Cadence>76</Cadence> <Extensions> <TPX xmlns="http://www.garmin.com/xmlschemas/ActivityExtension/v2"> <Watts>112</Watts> </TPX> </Extensions> </Trackpoint> ….Lots of <Trackpoint> … </Trackpoint> </Track> В конце концов, я сделаю таблицу данных с столбцами «Lattitude, Altitude, […]

Замена тегов одного типа на метки другого в BeautifulSoup

У меня есть коллекция файлов HTML. Я хочу поочередно перебирать их, редактируя надпись определенного класса. Код, который я хочу изменить, имеет следующую форму, используя следующие имена классов: <td class='thisIsMyClass' colspan=4> <a id='123' class='thisIsMyOtherClass' href='123'>Put me Elsewhere</a> Это может происходить несколько раз в одном документе с другим текстом вместо «Поместить меня в другое место», но всегда […]

Невозможно получить китайские тексты при очистке

Я создал скрипт, который очищает веб-сайт: 1688.com, и проблема в том, что сайт находится на китайском языке, поэтому всякий раз, когда я пытаюсь извлечь текст, он дает мне кучу юникода, и когда я экспортирую в CSV-файл, в нем ничего нет. файл. Мой код: # -*- coding: utf-8 -*- import csv from urllib import urlopen from […]

Вложенные теги BeautifulSoup

Я пытаюсь проанализировать XML с помощью Beautifulsoup, но ударил кирпичную стену, пытаясь использовать « рекурсивный » атрибут с помощью findall () У меня есть довольно странный формат xml, показанный ниже: <?xml version="1.0"?> <catalog> <book> <author>Gambardella, Matthew</author> <title>XML Developer's Guide</title> <genre>Computer</genre> <price>44.95</price> <publish_date>2000-10-01</publish_date> <description>An in-depth look at creating applications with XML.</description> <book>true</book> </book> <book> <author>Ralls, Kim</author> […]

Python - лучший язык программирования в мире.