Tag: beautifulsoup

Как найти конкретный тег видео html с помощью красивого супа?

Кто-нибудь знает, как использовать beautifulsoup в python. У меня есть эта поисковая система со списком разных URL-адресов. Я хочу получить только тег html, содержащий URL-адрес для встраивания видео. и получить ссылку. пример import BeautifulSoup html = '''https://archive.org/details/20070519_detroit2''' #or this.. html = '''http://www.kumby.com/avatar-the-last-airbender-book-3-chapter-5/''' #or this… html = '''https://www.youtube.com/watch?v=fI3zBtE_S_k''' soup = BeautifulSoup.BeautifulSoup(html) Что я должен делать дальше […]

Как перечислить все строки, содержащие PA / внутри html-файла, используя красивый суп

У меня есть программа, которая конвертирует pdf-файлы в html, и мне нужно было дополнить эту программу, поэтому после преобразования она будет искать теги PA / и персонажа перед ним и сохранять эти теги и символы в CSV-файле, я пытаюсь сделай это, но я не могу, мог бы кто-нибудь помочь мне, пожалуйста? Вот код: import shlex […]

Python 2.7 Прекрасная очистка электронной почты BeautifulSoup до завершения полной базы данных

Надеюсь, у вас все хорошо! Я новичок и использую Python 2.7! Я пытаюсь извлечь электронные письма из общедоступного каталога каталогов, который, похоже, не имеет API: это сайт: http://www.tecomdirectory.com/companies.php?segment=&activity=&search=category&submit=Search , код останавливает сбор электронной почты, где на странице внизу, где говорится «загрузите больше»! Вот мой код: import requests import re from bs4 import BeautifulSoup file_handler = […]

Получение дочернего элемента определенного элемента div с использованием красивого супа

Я пытаюсь очистить данные таблицы из этой ссылки http://bet.hkjc.com/racing/pages/odds_wp.aspx?date=30-01-2017&venue=ST&raceno=2&lang=en Вот мой код from lxml import html import webbrowser import re import xlwt import requests import bs4 content = requests.get("http://bet.hkjc.com/racing/pages/odds_wp.aspx?date=30-01-2017&venue=ST&raceno=1&lang=en").text # Get page content soup = bs4.BeautifulSoup(content, 'lxml') # Parse page content table = soup.find('div', {'id': 'detailWPTable'}) # Locate that table tag rows = table.find_all('tr') # […]

Путаница для чтения содержимого таблицы html с помощью BeautifulSoup?

вот содержание HTML : <table cellspacing="1" cellpadding="0" class="data"> <tr class="colhead"> <th colspan="3">Expression</th> </tr> <tr class="colhead"> <th>Task</th> <th>Action</th> <th>List</th> </tr> <tr class="rowLight"> <td width="40%"> Task1 </td> <td width="20%"> Assigned to </td> <td width="40%"> Harry </td> </tr> <tr class="rowDark"> <td width="40%"> Task2 </td> <td width="20%"> Rejected by </td> <td width="40%"> Lopa </td> </tr> <tr class="rowLight"> <td width="40%"> […]

Скремблирование сложной таблицы с использованием Beautifulsoup и Python

<table cellspacing="0" rules="all" border="1" id="MainContent_grdUsers2" style="border-style:None;width:100%;border-collapse:collapse;"> <tbody><tr class="listHeader"> <th scope="col" style="width:11%;">Name</th><th scope="col" style="width:12%;">Password</th><th scope="col" style="width:16%;">Rights</th><th scope="col" style="width:10%;">Bureaus</th><th scope="col" style="width:15%;">FullName</th><th scope="col" style="width:16%;">Email</th><th scope="col" style="width:12%;">Status</th><th scope="col" style="width:12%;">Logon Tries</th> </tr><tr> <td>user1</td><td align="center"> <input name="ctl00$MainContent$grdUsers2$ctl02$txtManageUsersPassword" type="text" maxlength="50" id="MainContent_grdUsers2_txtManageUsersPassword_0" style="width: 95%; background-image: url(&quot;data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAABAAAAASCAYAAABSO15qAAAAAXNSR0IArs4c6QAAAUBJREFUOBGVVE2ORUAQLvIS4gwzEysHkHgnkMiEc4zEJXCMNwtWTmDh3UGcYoaFhZUFCzFVnu4wIaiE+vvq6+6qTgthGH6O4/jA7x1OiCAIPwj7CoLgSXDxSjEVzAt9k01CBKdWfsFf/2WNuEwc2YqigKZpK9glAlVVwTTNbQJZlnlCkiTAZnF/mePB2biRdhwHdF2HJEmgaRrwPA+qqoI4jle5/8XkXzrCFoHg+/5ICdpm13UTho7Q9/0WnsfwiL/ouHwHrJgQR8WEwVG+oXpMPaDAkdzvd7AsC8qyhCiKJjiRnCKwbRsMw9hcQ5zv9maSBeu6hjRNYRgGFuKaCNwjkjzPoSiK1d1gDDecQobOBwswzabD/D3Np7AHOIrvNpHmPI+Kc2RZBm3bcp8wuwSIot7QQ0PznoR6wYSK0Xb/AGVLcWwc7Ng3AAAAAElFTkSuQmCC&quot;); background-repeat: no-repeat; background-attachment: scroll; background-size: 16px 18px; background-position: 98% 50%; cursor: auto;" autocomplete="off"> </td><td align="center"> <select name="ctl00$MainContent$grdUsers2$ctl02$ddlManageUsersRights" […]

Загрузка большего содержимого на веб-страницу и проблемы с записью в файл

Я работаю над проектом веб-соскабливания, который включает очистку URL-адресов с веб-сайта на основе поискового запроса, хранение их в файле CSV (под одним столбцом) и, наконец, очищение информации из этих ссылок и сохранение их в текстовом файле. В настоящее время я застрял в 2 проблемах. Исправлены только первые несколько ссылок. Я не могу извлечь ссылки с […]

Невозможно получить значение температуры из HTML с помощью модуля beautifulsoup python

Я использую BeautifulSoup4 для синтаксического анализа этого HTML (view-source: https://weather.com/en-IN/weather/today/l/17.39,78.49 ), и я пытаюсь получить значение температуры. Но значение может храниться в атрибуте obs.temperature . Я вижу значение температуры «24» в окне «Осмотр страницы», но то же самое не может быть найдено непосредственно в окне просмотра страницы. Ниже приведен снимок этой проблемы. Из источника просмотра: […]

Обход ответа скрипта при очистке веб-сайта с помощью запросов / BeautifulSoup

Я соскабливаю www.marriot.com для получения информации об их отелях и ценах. Я использовал инструмент проверки хрома, чтобы отслеживать сетевой трафик, чтобы выяснить, какой API-интерфейс используется endpoint marriot. Это запрос, который я пытаюсь подражать: http://www.marriott.com/reservation/availabilitySearch.mi?propertyCode=TYSMC&isSearch=true&fromDate=02/23/17&toDate=02/24/17&numberOfRooms=1&numberOfGuests=1&numberOfChildren=0&numberOfAdults=1 С моим кодом python: import requests from bs4 import BeautifulSoup base_uri = 'https://www.marriott.com' availability_search_ext = '/reservation/availabilitySearch.mi' rate_params = { 'propertyCode': 'TYSMC', […]

Веб-страница Scrape с несколькими разделами

Довольно новичок в python … и я пытаюсь вступить в свой первый проект. Был способен воспроизвести несколько простых демо … но я думаю, что есть несколько дополнительных сложностей с тем, что я пытаюсь сделать. Я пытаюсь очистить галоги за сайт НХЛ Вот что я придумал … аналогичный код работает для верхней части сайта (например: получить […]

Python - лучший язык программирования в мире.