Tag: beautifulsoup

Есть ли понимание OrderedDict?

Я не знаю, есть ли такая вещь, но я пытаюсь выполнить упорядоченное понимание диктата. Однако, похоже, это не работает? import requests from bs4 import BeautifulSoup from collections import OrderedDict soup = BeautifulSoup(html, 'html.parser') tables = soup.find_all('table') t_data = OrderedDict() rows = tables[1].find_all('tr') t_data = {row.th.text: row.td.text for row in rows if row.td } На данный […]

прекрасный суп просто получает значение внутри тега

Следующая команда: volume = soup.findAll("span", {"id": "volume"})[0] дает: <span class="gr_text1" id="volume">16,103.3</span> когда я печатаю (том). Как получить только номер?

Получение значения атрибута с помощью BeautifulSoup

Я пишу скрипт python, который будет извлекать места сценария после разбора с веб-страницы. Допустим, есть два сценария: <script type="text/javascript" src="http://example.com/something.js"></script> а также <script>some JS</script> Я могу получить JS из второго сценария, то есть когда JS написано внутри тегов. Но есть ли какой-либо способ, я мог бы получить значение src из первого сценария (т.е. извлечение всех […]

xml разбор с beautifulsoup4, проблема с именами

При анализе содержимого файла .docx в виде xml (word / document.xml) с помощью beautifulsoup4 (с установленным lxml, если требуется), я столкнулся с одной проблемой. Эта часть из xml: … <a:graphic xmlns:a="http://schemas.openxmlformats.org/drawingml/2006/main"> <a:graphicData uri="http://schemas.openxmlformats.org/drawingml/2006/picture"> <pic:pic xmlns:pic="http://schemas.openxmlformats.org/drawingml/2006/picture"> … становится следующим: … <graphic> <graphicData uri="http://schemas.openxmlformats.org/drawingml/2006/picture"> <pic> … Даже когда я просто разбираю файл и сохраняю его без каких-либо […]

Правильно соскабливание и отображение японских символов с использованием Python Django BeautifulSoup и Curl

Я пытаюсь очистить страницу на японском языке, используя python, curl и BeautifulSoup. Затем я сохраняю текст в базе данных MySQL, использующей кодировку utf-8, и покажу результирующие данные с помощью Django. Вот пример URL: https://www.cisco.apply2jobs.com/ProfExt/index.cfm?fuseaction=mExternal.showJob&RID=930026&CurrentPage=180 У меня есть функция, которую я использую для извлечения HTML в виде строки: def get_html(url): c = Curl() storage = StringIO() […]

pip install bs4 дает ошибку _socketobject

Я пытаюсь установить BeautifulSoup4, используя команду pip install BeautifulSoup4 , согласно документации bs здесь: https://www.crummy.com/software/BeautifulSoup/#Download Я использую Mac OS X 10.7.5 и python 2.7.12 Когда я запускаю команду в терминале, я получаю ошибку: AttributeError: '_socketobject' object has no attribute 'set_tlsext_host_name' Может ли кто-нибудь предположить, что я делаю неправильно? Заранее спасибо. EDIT: В свете комментариев я […]

Тексты песен для Rap Genius w / Python

Я немного новичок в кодировании, и я пытаюсь очистить текст песни Andre 3000 от Rap genius, http://genius.com/artists/Andre-3000 , используя Beautiful Soup (библиотека Python для вытаскивания данных из HTML и файлы XML). Моя конечная цель – иметь данные в строковом формате. Вот что я имею до сих пор: from bs4 import BeautifulSoup from urllib2 import urlopen […]

Найти по тексту и заменить в HTML BeautifulSoup

Я пытаюсь выделить HTML-файл (буквально обертывая строки в тегах «mark»), используя python и BeautifulSoup. Проблема в основном заключается в следующем … Скажем, у меня есть свой оригинальный html-документ: test = "<h1>oh hey</h1><div>here is some <b>SILLY</b> text</div>" Я хочу сделать нечувствительный к регистру поиск строки в этом документе (игнорируя HTML) и обернуть ее в теги «mark». […]

Как получить все ссылки с сайта с помощью Beautiful Soup (python) Рекурсивно

Я хочу, чтобы рекурсивно получить все ссылки с сайта, а затем следовать этим ссылкам и получить все ссылки с этих сайтов. Глубина должна быть 5-10, чтобы вернуть массив всех найденных ссылок. Предпочтительно использовать красивый суп / питон. Благодаря! Я пробовал это до сих пор, и он не работает … любая помощь будет оценена. from BeautifulSoup […]

Ошибка импорта BeautifulSoup

Я пытаюсь написать простой, локальный скрипт python, чтобы выполнить некоторый синтаксический анализ html. Я установил beautifulsoup4 и импортировал его, используя from bs4 import BeautifulSoup Но я получаю сообщение об ошибке: Traceback (most recent call last): File "scrape_descriptions.py", line 1, in <module> from bs4 import BeautifulSoup ImportError: No module named 'bs4' Я пробовал установить BS4 практически […]

 
Interesting Posts for Van-Lav
Python - лучший язык программирования в мире.