Tag: beautifulsoup

Атрибут parse malformed с использованием BeautifulSoup

Я пытаюсь извлечь атрибут, содержащий недопустимую неопределенную цитату: <meta content="mal"formed"> При использовании BeautifulSoup: soup.find('meta')['content'] И, как и ожидалось, результатом является mal . Есть ли способ сделать BeautifulSoup рассматривать неэксклюзивную цитату как часть атрибута, так что результат будет mal"formed ?

Можно ли очистить «динамическую веб-страницу» с помощью beautifulsoup?

В настоящее время я начинаю использовать beautifulsoup для очистки веб-сайтов, я думаю, что у меня есть основы, хотя у меня нет теоретических знаний о веб-страницах, я сделаю все возможное, чтобы сформулировать мой вопрос. То, что я имею в виду с динамической веб-страницей, является следующим: сайт, чей HTML изменяется в зависимости от действия пользователя, в моем […]

Анализ тегов привязки данных в HTML с помощью Beautiful Soup

У меня возникла проблема с выбором этого объекта div в Beautiful Soup, а затем анализ данных внутри. Сначала я должен декодировать объекты HTML, такие как функция на этом сайте ( https://mothereff.in/html-entities ). Какие шаги я бы предпринял, например, для программного выбора (Extralarge: '/ s3 / fhphotos / CIRD-72K6-H9_SID_1.jpg, ширина = 1000 & высота = 1000 […]

Проблема с кодировкой Python: знак степени и другие

Я использую BeautifulSoup для очистки данных с веб-страницы. Я хочу сравнить данные веб-сайта с текстом, который находится в документе .txt. Однако, похоже, у меня проблемы с кодировкой. На веб-сайте есть текст «heat oven to 400 °». Текст также выглядит так: «источник просмотра» (без html-объектов). Веб-сайт читается с помощью beautifulSoup: source = "my url".read() …. soup […]

Декодировать html-объекты с помощью BeautifulSoup

Я пытаюсь декодировать объекты, используя BeautifulSoup, но не повезло. from BeautifulSoup import BeautifulSoup decoded = BeautifulSoup("&lt;p&gt; &lt;/p&gt;",convertEntities=BeautifulSoup.HTML_ENTITIES) print decoded Выход не декодируется вообще. Я нашел здесь много ответов, которые используют этот метод. Я что-то делаю неправильно? Я хотел бы использовать BeautifulSoup для этого, поэтому, пожалуйста, не беспокойтесь, рассказывая мне, что стандартная библиотека имеет метод декодирования […]

Как получить атрибуты HTML во вложенных тегах с помощью Mechanize в Python?

все. У меня возникли проблемы с получением ссылок во вложенном HTML с помощью Mechanize в Python. Вот мой текущий код (я все пробовал, это только последняя копия, которая работает неправильно) (и помилуй мои имена переменных (вещь, материал)): soup = BeautifulSoup(resultsPage) if not soup.find(attrs={'class' : 'paging'}): print "Only one producted listed!" else: stuff = soup.find('div', attrs={'class' […]

Эквивалент метода renderContents () Beautiful Soup в lxml?

Есть ли эквивалент метода tag.renderContents() Beautiful Soup в lxml? Я пробовал использовать element.text , но это не отображает дочерние теги, а также ''.join(etree.tostring(child) for child in element) , но это не отображает дочерний текст. Самое близкое, что я смог найти, это etree.tostring(element) , но это отображает открывающий и закрывающий теги element , чего я не […]

Как заставить BeautifulSoup анализировать содержимое тегов textarea как HTML?

До 3.0.5 BeautifulSoup использовался для обработки содержимого <textarea> как HTML. Теперь он рассматривает это как текст. Документ, который я обрабатываю, содержит HTML внутри тегов textarea, и я пытаюсь его обработать. Я пробовал: for textarea in soup.findAll('textarea'): contents = BeautifulSoup.BeautifulSoup(textarea.contents) textarea.replaceWith(contents.html(text=True)) Но я получаю ошибки. Я не могу найти это в документации, и альтернативные синтаксические анализаторы […]

как создать парсер html5lib для обработки смесей тэгов xml и html

Я новичок в BeautifulSoup, и я изучаю, как решить мои задачи синтаксического анализа. Мой html-файл состоит из многих отдельных документов, загружаемых в виде пакета из lexisnexis (юридическая база данных). Моя первая задача – разбить файл html на его учредительные документы. Я думал, что это будет легко, так как документы окружены <DOC NUMBER=1>body of the 1st […]

Удаление NoneTypes из словаря

Прежде, чем кто-либо это упоминает, я все время собирал stackoverflow и Google, чтобы найти ответ на этот вопрос, и я считаю, что я просто ошибаюсь. Я разбираю XML-документ и помещаю значения в переменные с помощью BeautifulSoup4. Прямо сейчас я читаю значения, перекодированные в словарь и повторяющиеся через словарь, чтобы найти нужные мне значения, однако, когда […]

Interesting Posts for Van-Lav

Как удалить предупреждения Python 3 для операторов печати в Pycharm при использовании интерпретатора Python 2?

Что это за оператор * = -1

Применение цветовых кодов к пользовательской оси в 3D-поверхности Matplotlib

Удаление и перерисовка анимации Matplotlib

Как сохранить индекс при использовании слияния pandas

Преобразование строки с UTC-смещением в объект datetime

Как заставить Sphinx игнорировать уведомление GPL в моей документации?

Как затенять под кривой в matplotlib, но с переменной цветной альфой?

Есть ли способ сделать Сиборн или Винсент интерактивным?

Установка модулей для нескольких версий python

google app engine error, и я не могу открыть его сейчас. (python)

Ограничьте ограничения br.submit ()?

как создать треугольник, заполненный полупрозрачным цветом подушкой python (fork PIL)

Python – Создать счетчик () из сопоставления, нецелые значения

Apache2 и контекстный путь для виртуального хоста с Django и AngularJS

Python - лучший язык программирования в мире.