Tag: beautifulsoup

xml разбор с beautifulsoup4, проблема с именами

При анализе содержимого файла .docx в виде xml (word / document.xml) с помощью beautifulsoup4 (с установленным lxml, если требуется), я столкнулся с одной проблемой. Эта часть из xml: … <a:graphic xmlns:a="http://schemas.openxmlformats.org/drawingml/2006/main"> <a:graphicData uri="http://schemas.openxmlformats.org/drawingml/2006/picture"> <pic:pic xmlns:pic="http://schemas.openxmlformats.org/drawingml/2006/picture"> … становится следующим: … <graphic> <graphicData uri="http://schemas.openxmlformats.org/drawingml/2006/picture"> <pic> … Даже когда я просто разбираю файл и сохраняю его без каких-либо […]

Правильно соскабливание и отображение японских символов с использованием Python Django BeautifulSoup и Curl

Я пытаюсь очистить страницу на японском языке, используя python, curl и BeautifulSoup. Затем я сохраняю текст в базе данных MySQL, использующей кодировку utf-8, и покажу результирующие данные с помощью Django. Вот пример URL: https://www.cisco.apply2jobs.com/ProfExt/index.cfm?fuseaction=mExternal.showJob&RID=930026&CurrentPage=180 У меня есть функция, которую я использую для извлечения HTML в виде строки: def get_html(url): c = Curl() storage = StringIO() […]

pip install bs4 дает ошибку _socketobject

Я пытаюсь установить BeautifulSoup4, используя команду pip install BeautifulSoup4 , согласно документации bs здесь: https://www.crummy.com/software/BeautifulSoup/#Download Я использую Mac OS X 10.7.5 и python 2.7.12 Когда я запускаю команду в терминале, я получаю ошибку: AttributeError: '_socketobject' object has no attribute 'set_tlsext_host_name' Может ли кто-нибудь предположить, что я делаю неправильно? Заранее спасибо. EDIT: В свете комментариев я […]

Тексты песен для Rap Genius w / Python

Я немного новичок в кодировании, и я пытаюсь очистить текст песни Andre 3000 от Rap genius, http://genius.com/artists/Andre-3000 , используя Beautiful Soup (библиотека Python для вытаскивания данных из HTML и файлы XML). Моя конечная цель – иметь данные в строковом формате. Вот что я имею до сих пор: from bs4 import BeautifulSoup from urllib2 import urlopen […]

Найти по тексту и заменить в HTML BeautifulSoup

Я пытаюсь выделить HTML-файл (буквально обертывая строки в тегах «mark»), используя python и BeautifulSoup. Проблема в основном заключается в следующем … Скажем, у меня есть свой оригинальный html-документ: test = "<h1>oh hey</h1><div>here is some <b>SILLY</b> text</div>" Я хочу сделать нечувствительный к регистру поиск строки в этом документе (игнорируя HTML) и обернуть ее в теги «mark». […]

Как получить все ссылки с сайта с помощью Beautiful Soup (python) Рекурсивно

Я хочу, чтобы рекурсивно получить все ссылки с сайта, а затем следовать этим ссылкам и получить все ссылки с этих сайтов. Глубина должна быть 5-10, чтобы вернуть массив всех найденных ссылок. Предпочтительно использовать красивый суп / питон. Благодаря! Я пробовал это до сих пор, и он не работает … любая помощь будет оценена. from BeautifulSoup […]

Ошибка импорта BeautifulSoup

Я пытаюсь написать простой, локальный скрипт python, чтобы выполнить некоторый синтаксический анализ html. Я установил beautifulsoup4 и импортировал его, используя from bs4 import BeautifulSoup Но я получаю сообщение об ошибке: Traceback (most recent call last): File "scrape_descriptions.py", line 1, in <module> from bs4 import BeautifulSoup ImportError: No module named 'bs4' Я пробовал установить BS4 практически […]

Удаление первого дочернего узла с помощью BeautifulSoup

import os from bs4 import BeautifulSoup do = dir_with_original_files = 'C:\FOLDER' dm = dir_with_modified_files = 'C:\FOLDER' for root, dirs, files in os.walk(do): for f in files: print f.title() if f.endswith('~'): #you don't want to process backups continue original_file = os.path.join(root, f) mf = f.split('.') mf = ''.join(mf[:-1])+'_mod.'+mf[-1] # you can keep the same name # […]

find_all с именами тегов camelCase с помощью BeautifulSoup 4

Я пытаюсь очистить XML-файл с помощью BeautifulSoup 4.4.0 с именами тегов в camelCase, и find_all, похоже, не может их найти. Пример кода: from bs4 import BeautifulSoup xml = """ <hello> world </hello> """ soup = BeautifulSoup(xml, "lxml") for x in soup.find_all("hello"): print x xml2 = """ <helloWorld> 🙂 </helloWorld> """ soup = BeautifulSoup(xml2, "lxml") for […]

Получите свойство содержимого метатега с помощью BeautifulSoup и Python

Я пытаюсь использовать python и красивый суп, чтобы извлечь часть содержимого тегов ниже: <meta property="og:title" content="Super Fun Event 1" /> <meta property="og:url" content="http://superfunevents.com/events/super-fun-event-1/" /> Я получаю BeautifulSoup, чтобы загрузить страницу просто отлично и найти другие вещи (это также захватывает идентификатор статьи из тега id, скрытого в источнике), но я не знаю, как правильно искать html […]

Python - лучший язык программирования в мире.