Tag: beautifulsoup

Python beautifulsoup – получение входного значения

У меня много табличных строк: <tr> <td>100</td> <td>200</td> <td><input type="radio" value="123599"></td> </tr> Итерации: table = BeautifulSoup(response).find(id="sometable") # Make soup. for row in table.find_all("tr")[1:]: # Find rows. cells = row.find_all("td") # Find cells. points = int(cells[0].get_text()) gold = int(cells[1].get_text()) id = cells[2].input['value'] print id Ошибка: File "./script.py", line XX, in <module> id = cells[2].input['value'] TypeError: 'NoneType' […]

Использование urllib и BeautifulSoup для извлечения информации из Интернета с помощью Python

Я могу получить html-страницу с помощью urllib и использовать BeautifulSoup для анализа html-страницы, и похоже, что мне нужно сгенерировать файл для чтения из BeautifulSoup. import urllib sock = urllib.urlopen("http://SOMEWHERE") htmlSource = sock.read() sock.close() –> write to file Есть ли способ вызвать BeautifulSoup без создания файла из urllib?

Удаление всех тегов HTML вместе с их содержимым из текста

Мне интересно, как я могу удалить все теги HTML вместе с их содержимым с помощью BeautifulSoup . Входные данные: … text <strong>ha</strong> … text Вывод: … text … text

Удалите все встроенные стили с помощью BeautifulSoup

Я делаю очистку HTML с помощью BeautifulSoup. Noob для обоих Python & BeautifulSoup. У меня есть теги, которые удаляются правильно, как показано ниже, на основе ответа, который я нашел в другом месте в Stackoverflow: [s.extract() for s in soup('script')] Но как удалить встроенные стили? Например, следующее: <p class="author" id="author_id" name="author_name" style="color:red;">Text</p> <img class="some_image" href="somewhere.com"> Должно […]

python / beautifulsoup, чтобы найти все <a href> с конкретным текстом привязки

Я пытаюсь использовать красивый суп для анализа html и поиска всех href с определенным тегом привязки <a href="http://example.com">TEXT</a> <a href="http://example.com/link">TEXT</a> <a href="http://example.com/page">TEXT</a> все ссылки, которые я ищу, имеют тот же самый якорный текст, в этом случае TEXT. Я НЕ Ищем слово ТЕКСТ, я хочу использовать слово ТЕКСТ, чтобы найти все разные HREF редактировать: для выяснения […]

BeautifulSoup аналогичный для C #

есть ли подобная библиотека для BeautifulSoup для C# ? Я хочу просто анализировать HTML и XML, особенно HTML с ошибками.

исключение для запросов на установку исключений и pip install beautifulsoup4 исключение

Я установил Python 3.4.1 в Windows 7, включил pip и во время установки выбрал python.exe для PATH. При запуске запросов на установку пакетов я получаю: C:\Python34>pip install requests Requirement already satisfied (use –upgrade to upgrade): requests in c:\python3 4\lib\site-packages Cleaning up… Exception: Traceback (most recent call last): File "C:\Python34\lib\shutil.py", line 370, in _rmtree_unsafe os.unlink(fullname) PermissionError: […]

Как очистить Instagram с помощью BeautifulSoup

Я хочу очистить фотографии из общедоступной учетной записи Instagram. Я хорошо знаком с bs4, поэтому я начал с этого. Используя инспектор элементов в Chrome, я заметил, что фотографии находятся в неупорядоченном списке, а у li – «фотография», поэтому я думаю, что, черт возьми, не может быть так сложно скрестить с findAll, верно? Неверно: он ничего […]

используя python urllib2 для отправки запроса POST и получения ответа

Я пытаюсь вернуть HTML-страницу из отправки запроса POST: import httplib import urllib import urllib2 from BeautifulSoup import BeautifulSoup headers = { 'Host': 'digitalvita.pitt.edu', 'Connection': 'keep-alive', 'Content-Length': '325', 'Origin': 'https://digitalvita.pitt.edu', 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_4) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1', 'Content-type': 'application/x-www-form-urlencoded; charset=UTF-8', 'Accept': 'text/javascript, text/html, application/xml, text/xml, */*', 'Referer': 'https://digitalvita.pitt.edu/index.php', 'Accept-Encoding': […]

Использование BeautifulSoup для разбора строк, разделенных тэгами?

У меня есть страница, которая выглядит так: Company A<br /> 123 Main St.<br /> Suite 101<br /> Someplace, NY 1234<br /> <br /> <br /> <br /> Company B<br /> 456 Main St.<br /> Someplace, NY 1234<br /> <br /> <br /> <br /> Иногда есть два, а не три тега «br», разделяющие записи. Как […]

Python - лучший язык программирования в мире.