Tag: beautifulsoup

прекрасный суп просто получает значение внутри тега

Следующая команда: volume = soup.findAll("span", {"id": "volume"})[0] дает: <span class="gr_text1" id="volume">16,103.3</span> когда я печатаю (том). Как получить только номер?

Получение значения атрибута с помощью BeautifulSoup

Я пишу скрипт python, который будет извлекать места сценария после разбора с веб-страницы. Допустим, есть два сценария: <script type="text/javascript" src="http://example.com/something.js"></script> а также <script>some JS</script> Я могу получить JS из второго сценария, то есть когда JS написано внутри тегов. Но есть ли какой-либо способ, я мог бы получить значение src из первого сценария (т.е. извлечение всех […]

xml разбор с beautifulsoup4, проблема с именами

При анализе содержимого файла .docx в виде xml (word / document.xml) с помощью beautifulsoup4 (с установленным lxml, если требуется), я столкнулся с одной проблемой. Эта часть из xml: … <a:graphic xmlns:a="http://schemas.openxmlformats.org/drawingml/2006/main"> <a:graphicData uri="http://schemas.openxmlformats.org/drawingml/2006/picture"> <pic:pic xmlns:pic="http://schemas.openxmlformats.org/drawingml/2006/picture"> … становится следующим: … <graphic> <graphicData uri="http://schemas.openxmlformats.org/drawingml/2006/picture"> <pic> … Даже когда я просто разбираю файл и сохраняю его без каких-либо […]

Правильно соскабливание и отображение японских символов с использованием Python Django BeautifulSoup и Curl

Я пытаюсь очистить страницу на японском языке, используя python, curl и BeautifulSoup. Затем я сохраняю текст в базе данных MySQL, использующей кодировку utf-8, и покажу результирующие данные с помощью Django. Вот пример URL: https://www.cisco.apply2jobs.com/ProfExt/index.cfm?fuseaction=mExternal.showJob&RID=930026&CurrentPage=180 У меня есть функция, которую я использую для извлечения HTML в виде строки: def get_html(url): c = Curl() storage = StringIO() […]

pip install bs4 дает ошибку _socketobject

Я пытаюсь установить BeautifulSoup4, используя команду pip install BeautifulSoup4 , согласно документации bs здесь: https://www.crummy.com/software/BeautifulSoup/#Download Я использую Mac OS X 10.7.5 и python 2.7.12 Когда я запускаю команду в терминале, я получаю ошибку: AttributeError: '_socketobject' object has no attribute 'set_tlsext_host_name' Может ли кто-нибудь предположить, что я делаю неправильно? Заранее спасибо. EDIT: В свете комментариев я […]

Тексты песен для Rap Genius w / Python

Я немного новичок в кодировании, и я пытаюсь очистить текст песни Andre 3000 от Rap genius, http://genius.com/artists/Andre-3000 , используя Beautiful Soup (библиотека Python для вытаскивания данных из HTML и файлы XML). Моя конечная цель – иметь данные в строковом формате. Вот что я имею до сих пор: from bs4 import BeautifulSoup from urllib2 import urlopen […]

Найти по тексту и заменить в HTML BeautifulSoup

Я пытаюсь выделить HTML-файл (буквально обертывая строки в тегах «mark»), используя python и BeautifulSoup. Проблема в основном заключается в следующем … Скажем, у меня есть свой оригинальный html-документ: test = "<h1>oh hey</h1><div>here is some <b>SILLY</b> text</div>" Я хочу сделать нечувствительный к регистру поиск строки в этом документе (игнорируя HTML) и обернуть ее в теги «mark». […]

Как получить все ссылки с сайта с помощью Beautiful Soup (python) Рекурсивно

Я хочу, чтобы рекурсивно получить все ссылки с сайта, а затем следовать этим ссылкам и получить все ссылки с этих сайтов. Глубина должна быть 5-10, чтобы вернуть массив всех найденных ссылок. Предпочтительно использовать красивый суп / питон. Благодаря! Я пробовал это до сих пор, и он не работает … любая помощь будет оценена. from BeautifulSoup […]

Ошибка импорта BeautifulSoup

Я пытаюсь написать простой, локальный скрипт python, чтобы выполнить некоторый синтаксический анализ html. Я установил beautifulsoup4 и импортировал его, используя from bs4 import BeautifulSoup Но я получаю сообщение об ошибке: Traceback (most recent call last): File "scrape_descriptions.py", line 1, in <module> from bs4 import BeautifulSoup ImportError: No module named 'bs4' Я пробовал установить BS4 практически […]

Удаление первого дочернего узла с помощью BeautifulSoup

import os from bs4 import BeautifulSoup do = dir_with_original_files = 'C:\FOLDER' dm = dir_with_modified_files = 'C:\FOLDER' for root, dirs, files in os.walk(do): for f in files: print f.title() if f.endswith('~'): #you don't want to process backups continue original_file = os.path.join(root, f) mf = f.split('.') mf = ''.join(mf[:-1])+'_mod.'+mf[-1] # you can keep the same name # […]

 
Interesting Posts for Van-Lav

Как найти дубликаты имен с помощью панд?

Печать каждого элемента переменной в отдельной строке в Python

Прочитайте большой текстовый файл в молнии в строке в python

Странное поведение Python – это оператор, если он сочетается с 'in'

Преобразование float в строку без округления

не получая все сообщения с превышением ICMP: почему?

Как написать fftshift и ifftshift в R?

Создание заполненного многоугольника внутри массива numpy

Python: как можно удаленно от моего локального компьютера до remoteA до remoteb к удаленному c с помощью Paramiko

Что такое эквивалент Python статических переменных внутри функции?

Аутентификация Python с помощью urllib2

Валидатор номера кредитной карты работает неправильно

Определить переменные с теми же данными списка, но разными объектами, использующими python

Как я могу позволить эмулятору Android разговаривать с локальным хостом?

Перенаправления Python Перенаправление не поддерживается

Python - лучший язык программирования в мире.