Как я могу сканировать веб-данные, которые не находятся в тегах

<div id="main-content" class="content"> <div class="metaline"> <span class="article-meta author">jorden</span> </div> " 1.name:jorden> 2.age:28 -- " <span class="D2"> from 111.111.111.111 </span> </div> 

Мне нужно только

1.name:jorden
2.age: 28

xxx.select('#main-content') это вернет все, но мне нужно только часть из них. Поскольку они не находятся в каких-либо тегах, я не знаю, как это сделать.

One Solution collect form web for “Как я могу сканировать веб-данные, которые не находятся в тегах”

Вы хотите найти тег перед рассматриваемым текстом (в вашем случае <div class="metaline"> ), а затем посмотрите на следующий брат в дереве разбора HTML:

 text = soup.find("div", class_='metaline').next_sibling print(text) # " # 1.name:jorden> # 2.age:28 # # -- # " # 

Как только вы получите исходный текст, разделите его и т. Д.

  • Как читать содержимое веб-сайта?
  • Ошибка selexbox при проверке на селене
  • Как использовать HTMLParser Python для извлечения определенных ссылок
  • Как запустить Scrapy из сценария Python
  • Как очистить XML-ленту с помощью xmlfeedspider
  • Какая разница между синтаксическим разбором HTML и обходом веб-страниц в python
  • Как предотвратить URL-адрес Scrapy из URL-адреса URL-адреса
  • Неизвестная команда: ошибка обхода
  • Python - лучший язык программирования в мире.