Tag: beautifulsoup

Не удается установить Beautifulsoup («bs4 не существует»)

Я пытаюсь установить BeautifulSoup на Windows. Пока у меня есть: скачал BeautifulSoup на «Мои загрузки». распаковать / извлечь его в папке с загрузками. В командной строке я запустил: C:<path to python33> "C:path to beautiful soup\setup.py" install Процесс генерировал сообщения: running install running build running build_py **error: package directory 'bs4' does not exist.** Тем не менее, […]

Ошибка глубины рекурсии при использовании BeautifulSoup с картой пула многопроцессорности

Я использую BeautifulSoup для разбора html-файлов, в то время как все написанные мной сценарии работают хорошо, но медленнее. Поэтому я экспериментирую с использованием многопроцессорного пула рабочих вместе с BeautifulSoup, поэтому моя программа может работать быстрее (у меня есть 100 000 – 1 000 000 html файлов для открытия). Сценарий, который я написал, более сложный, но […]

Самый быстрый, простой и лучший способ анализа таблицы HTML?

Я пытаюсь получить эту таблицу http://www.datamystic.com/timezone/time_zones.html в формате массива, чтобы я мог делать все, что захочу. Предпочтительно в PHP, python или JavaScript. Это проблема, которая возникает много, поэтому вместо поиска помощи в этой конкретной проблеме я ищу идеи о том, как решить все подобные проблемы. BeautifulSoup – это первое, что приходит на ум. Другая возможность […]

beautifulsoup: найдите родной брат n-го элемента

У меня есть сложное дерево html DOM следующего характера: <table> … <tr> <td> … </td> <td> <table> <tr> <td> <!– inner most table –> <table> … </table> <h2>This is hell!</h2> <td> </tr> </table> </td> </tr> </table> У меня есть логика, чтобы узнать внутреннюю таблицу. Но, найдя его, мне нужно получить следующий элемент sibling (h2). В […]

Загрузка огромных файлов XML и обращение к MemoryError

У меня очень большой XML-файл (точнее, 20GB, и да, мне нужно все это). Когда я пытаюсь загрузить файл, я получаю эту ошибку: Python(23358) malloc: *** mmap(size=140736680968192) failed (error code=12) *** error: can't allocate region *** set a breakpoint in malloc_error_break to debug Traceback (most recent call last): File "file.py", line 5, in <module> code = […]

настроить BeautifulSoup's prettify по тегу

Мне было интересно, можно ли сделать так, чтобы prettify не создавал новые строки для определенных тегов. Я хотел бы сделать так, чтобы span и теги не разбивались, например: doc="""<div><div><span>a</span><span>b</span> <a>link</a></div><a>link1</a><a>link2</a></div>""" from bs4 import BeautifulSoup as BS soup = BS(doc) print soup.prettify() ниже – это то, что я хочу напечатать: <div> <div> <span>a</span><span>b</span> <a>link</a> </div> <a>link1</a><a>link2</a> […]

Python BeautifulSoup эквивалентен lxml make_links_absolute

Таким образом, lxml имеет очень удобную функцию: make_links_absolute: doc = lxml.html.fromstring(some_html_page) doc.make_links_absolute(url_for_some_html_page) и теперь все ссылки в doc являются абсолютными. Есть ли простой эквивалент в BeautifulSoup или просто нужно передать его через urlparse и нормализовать его: soup = BeautifulSoup(some_html_page) for tag in soup.findAll('a', href=True): url_data = urlparse(tag['href']) if url_data[0] == "": full_url = url_for_some_html_page + […]

Python beautifulsoup – получение входного значения

У меня много табличных строк: <tr> <td>100</td> <td>200</td> <td><input type="radio" value="123599"></td> </tr> Итерации: table = BeautifulSoup(response).find(id="sometable") # Make soup. for row in table.find_all("tr")[1:]: # Find rows. cells = row.find_all("td") # Find cells. points = int(cells[0].get_text()) gold = int(cells[1].get_text()) id = cells[2].input['value'] print id Ошибка: File "./script.py", line XX, in <module> id = cells[2].input['value'] TypeError: 'NoneType' […]

Использование urllib и BeautifulSoup для извлечения информации из Интернета с помощью Python

Я могу получить html-страницу с помощью urllib и использовать BeautifulSoup для анализа html-страницы, и похоже, что мне нужно сгенерировать файл для чтения из BeautifulSoup. import urllib sock = urllib.urlopen("http://SOMEWHERE") htmlSource = sock.read() sock.close() –> write to file Есть ли способ вызвать BeautifulSoup без создания файла из urllib?

Удаление всех тегов HTML вместе с их содержимым из текста

Мне интересно, как я могу удалить все теги HTML вместе с их содержимым с помощью BeautifulSoup . Входные данные: … text <strong>ha</strong> … text Вывод: … text … text

Python - лучший язык программирования в мире.