Как я могу сканировать веб-данные, которые не находятся в тегах

<div id="main-content" class="content"> <div class="metaline"> <span class="article-meta author">jorden</span> </div> " 1.name:jorden> 2.age:28 -- " <span class="D2"> from 111.111.111.111 </span> </div> 

Мне нужно только

1.name:jorden
2.age: 28

xxx.select('#main-content') это вернет все, но мне нужно только часть из них. Поскольку они не находятся в каких-либо тегах, я не знаю, как это сделать.

One Solution collect form web for “Как я могу сканировать веб-данные, которые не находятся в тегах”

Вы хотите найти тег перед рассматриваемым текстом (в вашем случае <div class="metaline"> ), а затем посмотрите на следующий брат в дереве разбора HTML:

 text = soup.find("div", class_='metaline').next_sibling print(text) # " # 1.name:jorden> # 2.age:28 # # -- # " # 

Как только вы получите исходный текст, разделите его и т. Д.

  • Какая разница между синтаксическим разбором HTML и обходом веб-страниц в python
  • Python, Selenium: «Элемент больше не привязан к DOM»
  • Как использовать HTMLParser Python для извлечения определенных ссылок
  • Получить прокси-адрес ip-адрес, используя сканирование
  • Почему Scrapy возвращает iframe?
  • Могу ли я выполнить scrapy (python) сканирование вне проекта dir?
  • Scrapy - Реактор не восстанавливается
  • Запуск нескольких пауков с использованием scrapyd
  • Python - лучший язык программирования в мире.