Tag: beautifulsoup

Получение дочернего элемента определенного элемента div с использованием красивого супа

Я пытаюсь очистить данные таблицы из этой ссылки http://bet.hkjc.com/racing/pages/odds_wp.aspx?date=30-01-2017&venue=ST&raceno=2&lang=en Вот мой код from lxml import html import webbrowser import re import xlwt import requests import bs4 content = requests.get("http://bet.hkjc.com/racing/pages/odds_wp.aspx?date=30-01-2017&venue=ST&raceno=1&lang=en").text # Get page content soup = bs4.BeautifulSoup(content, 'lxml') # Parse page content table = soup.find('div', {'id': 'detailWPTable'}) # Locate that table tag rows = table.find_all('tr') # […]

Путаница для чтения содержимого таблицы html с помощью BeautifulSoup?

вот содержание HTML : <table cellspacing="1" cellpadding="0" class="data"> <tr class="colhead"> <th colspan="3">Expression</th> </tr> <tr class="colhead"> <th>Task</th> <th>Action</th> <th>List</th> </tr> <tr class="rowLight"> <td width="40%"> Task1 </td> <td width="20%"> Assigned to </td> <td width="40%"> Harry </td> </tr> <tr class="rowDark"> <td width="40%"> Task2 </td> <td width="20%"> Rejected by </td> <td width="40%"> Lopa </td> </tr> <tr class="rowLight"> <td width="40%"> […]

Скремблирование сложной таблицы с использованием Beautifulsoup и Python

<table cellspacing="0" rules="all" border="1" id="MainContent_grdUsers2" style="border-style:None;width:100%;border-collapse:collapse;"> <tbody><tr class="listHeader"> <th scope="col" style="width:11%;">Name</th><th scope="col" style="width:12%;">Password</th><th scope="col" style="width:16%;">Rights</th><th scope="col" style="width:10%;">Bureaus</th><th scope="col" style="width:15%;">FullName</th><th scope="col" style="width:16%;">Email</th><th scope="col" style="width:12%;">Status</th><th scope="col" style="width:12%;">Logon Tries</th> </tr><tr> <td>user1</td><td align="center"> <input name="ctl00$MainContent$grdUsers2$ctl02$txtManageUsersPassword" type="text" maxlength="50" id="MainContent_grdUsers2_txtManageUsersPassword_0" style="width: 95%; background-image: url(&quot;data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAABAAAAASCAYAAABSO15qAAAAAXNSR0IArs4c6QAAAUBJREFUOBGVVE2ORUAQLvIS4gwzEysHkHgnkMiEc4zEJXCMNwtWTmDh3UGcYoaFhZUFCzFVnu4wIaiE+vvq6+6qTgthGH6O4/jA7x1OiCAIPwj7CoLgSXDxSjEVzAt9k01CBKdWfsFf/2WNuEwc2YqigKZpK9glAlVVwTTNbQJZlnlCkiTAZnF/mePB2biRdhwHdF2HJEmgaRrwPA+qqoI4jle5/8XkXzrCFoHg+/5ICdpm13UTho7Q9/0WnsfwiL/ouHwHrJgQR8WEwVG+oXpMPaDAkdzvd7AsC8qyhCiKJjiRnCKwbRsMw9hcQ5zv9maSBeu6hjRNYRgGFuKaCNwjkjzPoSiK1d1gDDecQobOBwswzabD/D3Np7AHOIrvNpHmPI+Kc2RZBm3bcp8wuwSIot7QQ0PznoR6wYSK0Xb/AGVLcWwc7Ng3AAAAAElFTkSuQmCC&quot;); background-repeat: no-repeat; background-attachment: scroll; background-size: 16px 18px; background-position: 98% 50%; cursor: auto;" autocomplete="off"> </td><td align="center"> <select name="ctl00$MainContent$grdUsers2$ctl02$ddlManageUsersRights" […]

Загрузка большего содержимого на веб-страницу и проблемы с записью в файл

Я работаю над проектом веб-соскабливания, который включает очистку URL-адресов с веб-сайта на основе поискового запроса, хранение их в файле CSV (под одним столбцом) и, наконец, очищение информации из этих ссылок и сохранение их в текстовом файле. В настоящее время я застрял в 2 проблемах. Исправлены только первые несколько ссылок. Я не могу извлечь ссылки с […]

Невозможно получить значение температуры из HTML с помощью модуля beautifulsoup python

Я использую BeautifulSoup4 для синтаксического анализа этого HTML (view-source: https://weather.com/en-IN/weather/today/l/17.39,78.49 ), и я пытаюсь получить значение температуры. Но значение может храниться в атрибуте obs.temperature . Я вижу значение температуры «24» в окне «Осмотр страницы», но то же самое не может быть найдено непосредственно в окне просмотра страницы. Ниже приведен снимок этой проблемы. Из источника просмотра: […]

Обход ответа скрипта при очистке веб-сайта с помощью запросов / BeautifulSoup

Я соскабливаю www.marriot.com для получения информации об их отелях и ценах. Я использовал инструмент проверки хрома, чтобы отслеживать сетевой трафик, чтобы выяснить, какой API-интерфейс используется endpoint marriot. Это запрос, который я пытаюсь подражать: http://www.marriott.com/reservation/availabilitySearch.mi?propertyCode=TYSMC&isSearch=true&fromDate=02/23/17&toDate=02/24/17&numberOfRooms=1&numberOfGuests=1&numberOfChildren=0&numberOfAdults=1 С моим кодом python: import requests from bs4 import BeautifulSoup base_uri = 'https://www.marriott.com' availability_search_ext = '/reservation/availabilitySearch.mi' rate_params = { 'propertyCode': 'TYSMC', […]

Веб-страница Scrape с несколькими разделами

Довольно новичок в python … и я пытаюсь вступить в свой первый проект. Был способен воспроизвести несколько простых демо … но я думаю, что есть несколько дополнительных сложностей с тем, что я пытаюсь сделать. Я пытаюсь очистить галоги за сайт НХЛ Вот что я придумал … аналогичный код работает для верхней части сайта (например: получить […]

разобрать html красивый суп

У меня есть html-страница <a email="corporate@max.ru" href="http://www.max.ru/agent?message&to=corporate@max.ru" title="Click herе" class="mf_spIco spr-mrim-9"></a><a class="mf_t11" type="booster" href="http://max.ru/mail/corporate/"> Я пишу строку синтаксического анализа soup = BeautifulSoup(data string = soup.find("a",{"email": ""}) print string Но это не работает. Где ошибка?

Как получить доступ к subtags внутри тега с помощью beautifulsoup в python?

Я пытаюсь получить статистику игрока с MLB.com в течение сезона 2016 года. Я использую Beautiful Soup в Python, и мне нужно извлечь информацию в таблицу, которую вы видите здесь: http://mlb.mlb.com/stats/sortable.jsp#elem=%5Bobject+Object%5D&tab_level=child&click_text=Sortable+Player+hitting&game_type='R'&season=2016&season_type=ANY&league_code='MLB'&sectionType=sp&statType=hitting&page = 1 & ц = 1493672037085 & playerType = ALL & sportCode = 'Чемпионат' & сплит = & team_id = & active_sw = & положение […]

Получить атрибут значения для каждого найденного тега, используя Tag.find_all ()

Я создал список со всеми тегами моего файла HTML под названием «option». Но я не могу получить значения внутри тега. Это мой код и данные: >>> soup2 = soup.findAll('option') >>> soup2 [ <option value="ufs_munic">&nbsp;&nbsp;Por Município&nbsp;&nbsp;</option>, <option value="ext_paises">&nbsp;&nbsp;Por País&nbsp;&nbsp;</option>, … ] Я хотел бы получить приведенные значения после значения option value= в каждом теге. Например: ufs_munic […]

Python - лучший язык программирования в мире.