Tag: beautifulsoup

Каков ближайший эквивалент Beautiful Soup для Ruby?

Мне нравится библиотека соскабливания Beautiful Soup в Python. Это просто работает. Есть ли близкий эквивалент в Ruby?

Как сохранить чувствительные к регистру теги в BeautifulSoup.BeautifulStoneSoup?

Я пишу сценарий, который редактирует XML-файл с помощью BeautifulStoneSoup , но библиотека преобразует все теги в нижний регистр. Есть ли возможность сохранить дело? import BeautifulSoup xml = "<TestTag>a string</TestTag>" soup = BeautifulSoup.BeautifulStoneSoup(xml, markupMassage=False) print soup.prettify() # or soup.renderContents() #prints >>> <testtag>a string</testtag> #instead of the expected >>> <TestTag>a string</TestTag>

Ubuntu – Как установить Python-модуль (BeautifulSoup) на Python 3.3 вместо Python 2.7?

У меня есть этот код (как написано в BS4 documentaion): from bs4 import BeautifulSoup Когда я запускаю скрипт (используя python3), я получаю ошибку: ImportError: No module named 'bs4' Так установлен BeatifulSoup: sudo pip install BeatifulSoup4 Но когда я пытаюсь запустить скрипт снова, я получаю ту же ошибку. Действительно, BS4 устанавливается в: BeautifulSoup4 in /usr/local/lib/python2.7/dist-packages Но […]

Параметры для функции поиска

Я использую красивый суп (в Python). У меня есть такой скрытый объект ввода: <input type="hidden" name="form_build_id" id="form-531f740522f8c290ead9b88f3da026d2" value="form-531f740522f8c290ead9b88f3da026d2" /> Мне нужно значение id / value. Вот мой код: mainPageData = cookieOpener.open('http://page.com').read() soupHandler = BeautifulSoup(mainPageData) areaId = soupHandler.find('input', name='form_build_id', type='hidden') TypeError: find() got multiple values for keyword argument 'name' Я попытался изменить код: print soupHandler.find(name='form_build_id', type='hidden') […]

Получение n-го элемента с помощью BeautifulSoup

Из большой таблицы я хочу читать строки 5, 10, 15, 20 … с помощью BeautifulSoup. Как мне это сделать? Является ли findNextSibling и приращивающим счетчиком путь?

Beautifulsoup = извлекать содержимое в теге

Я хотел бы извлечь содержимое «Hello world». Обратите внимание, что на странице есть кратные <table> и аналогичные <td colspan="2"> . я попробовал следующее: hello = soup.find(text='Name: ') hello.findPreviousSiblings Но он ничего не вернул. Вот фрагмент кода: <table border="0" cellspacing="2" width="800"> <tr> <td colspan="2"><b>Name: </b>Hello world</td> </tr> <tr> Кроме того, у меня также возникла проблема со […]

Как получить доступ к тегу под названием «имя» в BeautifulSoup

Я хочу получить доступ к тегу под названием "name" например: <contact><name>Yesügey</name><lastName>Yeşil</lastName><phone>+90 333 9695395</phone></contact> Поскольку "name" является свойством объекта тега BeautifulSoup, я не могу получить доступ к имени дочернего тега: >>> c1 <contact><name>Yesügey</name><lastname>Yeşil</lastname><phone>+90 333 9695395</p hone></contact> >>> c1.name 'contact' >>> c1.lastname <lastname>Yeşil</lastname>

Python: BeautifulSoup извлекает текст из тега привязки

Я хочу извлечь текст из следующего src тега изображения и текста тега привязки, который находится внутри данных класса div. Я успешно удаляю img src, но у меня возникают проблемы с извлечением текста из тега привязки. <a class="title" href="http://rads.stackoverflow.com/amzn/click/B0073HSK0K">Nikon COOLPIX L26 16.1 MP Digital Camera with 5x Zoom NIKKOR Glass Lens and 3-inch LCD (Red)</a> Вот […]

Python 2.7 Прекрасный экстракт Img Src Soup

for imgsrc in Soup.findAll('img', {'class': 'sizedProdImage'}): if imgsrc: imgsrc = imgsrc else: imgsrc = "ERROR" patImgSrc = re.compile('src="(.*)".*/>') findPatImgSrc = re.findall(patImgSrc, imgsrc) print findPatImgSrc ''' <img height="72" name="proimg" id="image" class="sizedProdImage" src="http://imagelocation" /> Это то, что я пытаюсь извлечь, и получаю: findimgsrcPat = re.findall(imgsrcPat, imgsrc) File "C:\Python27\lib\re.py", line 177, in findall return _compile(pattern, flags).findall(string) TypeError: expected […]

Получить данные из метатегов с помощью BeautifulSoup

Я пытаюсь прочитать описание из метатега, и это то, что я использовал soup.findAll(name="description") но он не работает, однако приведенный ниже код работает просто отлично soup.findAll(align="center") Как прочитать описание из метатега в начале документа?

Python - лучший язык программирования в мире.