Tag: beautifulsoup

«Модульные тесты потерпели неудачу» для beautifulsoup

Я пытаюсь установить beautifulsoup для python33, но он не устанавливается должным образом, он дает такую ​​ошибку: C:\Python33>pip install beautifulsoup Downloading/unpacking beautifulsoup Downloading BeautifulSoup-3.2.1.tar.gz Running setup.py egg_info for package beautifulsoup Traceback (most recent call last): File "<string>", line 16, in <module> File "c:\windows\temp\pip_build_Prashant\beautifulsoup\setup.py", line 22 print "Unit tests have failed!" ^ SyntaxError: invalid syntax Complete output […]

python lxml на движке приложения?

Могу ли я использовать python lxml для движка Google? (или мне нужно использовать Beautiful Soup?) Я начал использовать Beautiful Soup, но кажется медленным. Я только начинаю играть с идеей «скрипинга экрана» с других сайтов, чтобы создать своего рода «месиво».

Очистить внутренний кадр HTML

У меня есть сценарий Python, который сбрасывает атрибут src элемента <video> на странице html. С помощью инспектора браузера на видео этой странице я могу увидеть элемент видео, который мне нужно очистить, но просмотр исходного файла непосредственно показывает только файлы JavaScript с использованием ember-приложений. Что мне нужно сделать для доступа к разметке «внутреннего фрейма», которая содержит […]

Каков ближайший эквивалент Beautiful Soup для Ruby?

Мне нравится библиотека соскабливания Beautiful Soup в Python. Это просто работает. Есть ли близкий эквивалент в Ruby?

Как сохранить чувствительные к регистру теги в BeautifulSoup.BeautifulStoneSoup?

Я пишу сценарий, который редактирует XML-файл с помощью BeautifulStoneSoup , но библиотека преобразует все теги в нижний регистр. Есть ли возможность сохранить дело? import BeautifulSoup xml = "<TestTag>a string</TestTag>" soup = BeautifulSoup.BeautifulStoneSoup(xml, markupMassage=False) print soup.prettify() # or soup.renderContents() #prints >>> <testtag>a string</testtag> #instead of the expected >>> <TestTag>a string</TestTag>

Ubuntu – Как установить Python-модуль (BeautifulSoup) на Python 3.3 вместо Python 2.7?

У меня есть этот код (как написано в BS4 documentaion): from bs4 import BeautifulSoup Когда я запускаю скрипт (используя python3), я получаю ошибку: ImportError: No module named 'bs4' Так установлен BeatifulSoup: sudo pip install BeatifulSoup4 Но когда я пытаюсь запустить скрипт снова, я получаю ту же ошибку. Действительно, BS4 устанавливается в: BeautifulSoup4 in /usr/local/lib/python2.7/dist-packages Но […]

Параметры для функции поиска

Я использую красивый суп (в Python). У меня есть такой скрытый объект ввода: <input type="hidden" name="form_build_id" id="form-531f740522f8c290ead9b88f3da026d2" value="form-531f740522f8c290ead9b88f3da026d2" /> Мне нужно значение id / value. Вот мой код: mainPageData = cookieOpener.open('http://page.com').read() soupHandler = BeautifulSoup(mainPageData) areaId = soupHandler.find('input', name='form_build_id', type='hidden') TypeError: find() got multiple values for keyword argument 'name' Я попытался изменить код: print soupHandler.find(name='form_build_id', type='hidden') […]

Получение n-го элемента с помощью BeautifulSoup

Из большой таблицы я хочу читать строки 5, 10, 15, 20 … с помощью BeautifulSoup. Как мне это сделать? Является ли findNextSibling и приращивающим счетчиком путь?

Beautifulsoup = извлекать содержимое в теге

Я хотел бы извлечь содержимое «Hello world». Обратите внимание, что на странице есть кратные <table> и аналогичные <td colspan="2"> . я попробовал следующее: hello = soup.find(text='Name: ') hello.findPreviousSiblings Но он ничего не вернул. Вот фрагмент кода: <table border="0" cellspacing="2" width="800"> <tr> <td colspan="2"><b>Name: </b>Hello world</td> </tr> <tr> Кроме того, у меня также возникла проблема со […]

Как получить доступ к тегу под названием «имя» в BeautifulSoup

Я хочу получить доступ к тегу под названием "name" например: <contact><name>Yesügey</name><lastName>Yeşil</lastName><phone>+90 333 9695395</phone></contact> Поскольку "name" является свойством объекта тега BeautifulSoup, я не могу получить доступ к имени дочернего тега: >>> c1 <contact><name>Yesügey</name><lastname>Yeşil</lastname><phone>+90 333 9695395</p hone></contact> >>> c1.name 'contact' >>> c1.lastname <lastname>Yeşil</lastname>

Python - лучший язык программирования в мире.