Tag: beautifulsoup

Получение всех href из кода

Я делаю веб-гусеничный манипулятор. Для поиска ссылок на странице я использовал xpath в селене driver = webdriver.Firefox() driver.get(side) Listlinker = driver.find_elements_by_xpath("//a") Это отлично работает. Однако тестируя искателя, я обнаружил, что не все ссылки попадают под тегом. href иногда используется в тегах области или div. Прямо сейчас я застрял с driver = webdriver.Firefox() driver.get(side) Listlinkera = […]

пустой набор результатов прекрасный суп

Скребуйте статью с сайта New York Times и получите пустой набор результатов. Моя цель – получить URL-адреса и текст элементов h3. Когда я запускаю это, я получаю пустой набор. Печать раздела scrape показывает, что я на правильном пути … target url – http://query.nytimes.com/search/sitesearch/?action=click&contentCollection&region=TopBar&WT.nav=searchWidget&module=SearchSubmit&pgtype=sectionfront#/san+ диего / 24 часа url = "http://query.nytimes.com/search/sitesearch/?action=click&contentCollection&region=TopBar&WT.nav=searchWidget&module=SearchSubmit&pgtype=sectionfront{data}" html = urlopen(url.format(data="#"+'/san+diego/24hours')) soup = […]

Скребок: как переформатировать сбор и вывод данных csv

Этот код предназначен для прокрутки всех страниц результатов, а затем прокрутки таблицы результатов на каждой странице и очистки всех данных из таблицы, а также некоторой информации, хранящейся за пределами таблицы. В настоящее время мой код просто очищает первое имя в каждой таблице и в основном использует его как организующий ключ. Мне нужно, чтобы код очищал […]

Python – Начинающий соскабливание с красивым супом 4 – onmouseover

Я начинающий пользователь python (3), и в настоящее время я пытаюсь соскрести некоторые спортивные состязания для своего фэнтезийного сезона. Раньше я делал это в раунде (загрузка в HT-треке, преобразование в excel и использование VBA для объединения моих данных). Но теперь я пытаюсь изучить python, чтобы улучшить свои способности кодирования. Я хочу очистить эту страницу, но […]

Веб-данные (wiki) scraping python

Я пытаюсь получить lat lng для какого-нибудь университета из Википедии, у меня есть базовый url = ' https://de.wikipedia.org/wiki/Liste_altsprachlicher_Gymnasien ' со списком университетов, и я получаю от wiki-страницы каждый университет, чтобы получить lat lng, присутствующий на их странице вики. Я получаю эту ошибку при ошибке «Объект NoneType» не имеет атрибута «текст» «Я не могу это исправить, […]

Как получить текст с текстом «быстрый ответ» в googles?

Я пытаюсь получить текст «быстрый ответ» в googles. То, что я подразумеваю под «быстрым ответом», должно быть ясно при посещении скриншота: Этот ящик отображается google, если вы вводите поиск, а google знает ответ. Поэтому вам не нужно открывать одну из ссылок, показанных ниже. Поле отображается, если вы вводите следующий запрос: https://google.de/search?q=definition%20calcium Теперь я хочу прочитать […]

Как разбить список фраз на слова, чтобы я мог использовать счетчик?

Мои данные – это потоки беседы из веб-форума. Я создал функцию для очистки данных стоп-слов, знаков препинания и т. Д. Затем я создал цикл, чтобы очистить все сообщения, которые были в моем файле csv, и поместить их в список. Затем я произнес количество слов. Моя проблема заключается в том, что список содержит уникодовые фразы, а […]

Таблица анализа с помощью BeautifulSoup Python

Если я хочу читать записи в таблице, которая следует за форматом: <table cellspacing="0" cellpadding="4"> stuff </table> Я использую это как мой текущий метод: pg = urllib2.urlopen(req).read() page = BeautifulSoup(pg) table = page.find('table', cellpadding = 4, cellspacing = 0) Моя table не может правильно прочитать тег, что это лучший способ сделать это?

Как я могу сканировать веб-данные, которые не находятся в тегах

<div id="main-content" class="content"> <div class="metaline"> <span class="article-meta author">jorden</span> </div> " 1.name:jorden> 2.age:28 — " <span class="D2"> from 111.111.111.111 </span> </div> Мне нужно только 1.name:jorden 2.age: 28 xxx.select('#main-content') это вернет все, но мне нужно только часть из них. Поскольку они не находятся в каких-либо тегах, я не знаю, как это сделать.

python BeautifulSoup получает конкретный элемент

если у меня есть html-код, подобный этому <div class="new_info_next"> <input type="hidden" value="133" id="new_id" class="new_id"> <input type="hidden" value="0" id="default_pe" class="default_pe"> </div> и я хочу получить только 133 input в первой строке, я пробую этот код, используя BeautifulSoup4 info = soup.find_all("div", {"class": "new_info_next"}) for inpu in info: for inpu1 in inpu.select('input'): print inpu1 .get('value') но выход был […]

Python - лучший язык программирования в мире.