Tag: beautifulsoup

как передать ключ поиска и получить результат через bs4

def get_main_page_url("https://malwr.com/analysis/search/", strDestPath, strMD5): base_url = 'https://malwr.com/' url = 'https://malwr.com/account/login/' username = 'myname' password = 'pswd' session = requests.Session() # getting csrf value response = session.get(url) soup = bs4.BeautifulSoup(response.content) form = soup.form csrf = form.find('input', attrs={'name': 'csrfmiddlewaretoken'}).get('value') ## csrf1 = form.find('input', attrs ={'name': 'search'}).get('value') # logging in data = { 'username': username, 'password': password, 'csrfmiddlewaretoken': […]

Получение содержимого из html и запись загруженного содержимого в определенном формате в CSV

У меня есть код HTML: <!– Snippet snippets/search_result_text.html end –> </h2> <p class="filter-list"> <span class="facet">Organisations:</span> <span class="filtered pill">**Reserve Bank of Australia** <a href="/dataset?groups=business" class="remove" title="Remove"><i class="icon-remove"></i></a> </span> <span class="facet">Groups:</span> <span class="filtered pill">**Business Support and Regulation** <a href="/dataset?organization=reservebankofaustralia" class="remove" title="Remove"><i class="icon-remove"></i></a> </span> </p> </form> <!– Snippet snippets/search_form.html end –> <!– Snippet snippets/search_package_list.html start –> <ul class="dataset-list […]

Самый умный способ хранения огромных объемов данных

Я хочу получить доступ к API flickr с запросом REST и загрузить метаданные ок. 1 фотографии Mio (возможно, больше). Я хочу сохранить их в CSV-файле и импортировать их в базу данных MySQL для дальнейшей обработки Мне интересно, что является самым умным способом обработки таких больших данных. Я не уверен в том, как хранить их после […]

Что нужно, чтобы BeautifulSoup4 + lxml работал с cx_freeze?

Резюме: У меня есть приложение wxPython / bs4, которое я создаю в exe с cx_freeze. Там сборка успешно завершена без ошибок, но при попытке запуска EXE-результатов FeatureNotFound ошибка FeatureNotFound от BeautifulSoup4. Он жалуется, что у меня нет установленной библиотеки lxml. Я с тех пор лишил программу до минимального состояния и все еще получаю ошибку. Кто-нибудь […]

Как заставить Python bs4 корректно работать с XML?

Я пытаюсь использовать Python и BeautifulSoup 4 (bs4) для преобразования Inkscape SVG в XML-подобный формат для некоторых проприетарных программ. Кажется, я не могу заставить bs4 правильно разобрать минимальный пример. Мне нужен парсер, чтобы уважать самозакрывающиеся теги, обрабатывать unicode и не добавлять html-файлы. Я думал, что нужно указать парсер «lxml» с selfClosingTags, но это не так! […]

Извлечение таблиц с веб-страницы с помощью BeautifulSoup 4

Прощайте, только сегодня начали использовать beautifulSoup для решения этой проблемы. Мне удалось заставить его работать, перетащив URL-адрес на веб-сайт. На каждой странице продукта на этом веб-сайте есть таблица, которая выглядит следующим образом: <table width="100%" class="product-feature-table"> <tbody> <tr> <td align="center"><table cellspacing="0" class="stats2"> <tbody> <tr> <td class="hed" colspan="2">YYF Shutter Stats:</td> </tr> <tr> <td>Diameter:</td> <td>56 mm / 2.20 […]

Извлечение информации о тегах с помощью beautifulsoup и python

Скажем, у меня есть xml like <item name=bread weight="5" edible="yes"> <body> some blah </body> <item> <item name=eggs weight="5" edible="yes"> <body> some blah </body> <item> <item name=meat weight="5" edible="yes"> <body> some blah </body> <item> Я хочу сохранить имя каждого элемента в списке, используя красивый суп Вот попытка: names =list() for c in soup.findAll("item"): #get name from […]

Получение имен тегов с помощью BeautifulSoup

from bs4 import BeautifulSoup source_code = """<a href="#" name="linkName">ok</a>""" soup = BeautifulSoup(source_code) print soup.a.? #find the object name Используя приведенный выше код, я пытаюсь напечатать имя linkName тегов ', которое является linkName но я не уверен, какой модуль или объект я буду использовать, я попробовал contents , name и tag_name_re . Кто-нибудь может мне помочь? […]

BeautifulSoup извлекает данные из нескольких таблиц

Я пытаюсь извлечь некоторые данные из двух html-таблиц в html-файле с помощью BeautifulSoup. На самом деле это первый раз, когда я его использую, и я задал много вопросов / примеров, но в моем случае никто не работает. Html содержит две таблицы, первая с заголовками первого столбца (которые всегда являются текстом), а вторая содержит данные следующих […]

Какая версия BeautifulSoup работает с GAE (python 2.5)?

Когда я пишу from BeautifulSoup import BeautifulSoup Я получаю следующую ошибку: No module named BeautifulSoup Все файлы сохраняются в папке проекта, вложенной папке BeautifulSoup. И он отлично работает, если BeautifulSoup.py помещается в ту же папку, где находится main.py.

Python - лучший язык программирования в мире.