HTML-парсер в Python

Используя документацию на Python, я нашел парсер HTML, но я не знаю, какую библиотеку импортировать для его использования, как мне это узнать (имея в виду, что он не говорит на странице).

  • Как использовать Django для получения имени для хост-сервера?
  • Многие словари используют огромное количество ОЗУ
  • Как получить, если флажок установлен на колбе
  • Конвенция для печати объекта в python
  • matplotlib цвет расцветки как функция третьей переменной
  • Как я могу увидеть все заметки сообщения Tumblr из Python?
  • Python 2.7 и PyDev - matplotlib и NumPy не работают
  • Можно ли скомпилировать Python для машинного кода?
  • 8 Solutions collect form web for “HTML-парсер в Python”

    Пытаться:

    import HTMLParser 

    В Python 3.0 модуль HTMLParser был переименован в html.parser, вы можете проверить это здесь.

    Python 3.0

     import html.parser 

    Python 2.2 и выше

     import HTMLParser 

    Вы, вероятно, действительно хотите BeautifulSoup , проверьте ссылку на пример.

    Но в любом случае

     >>> import HTMLParser >>> h = HTMLParser.HTMLParser() >>> h.feed('<html></html>') >>> h.get_starttag_text() '<html>' >>> h.close() 

    Я бы рекомендовал использовать модуль Beautiful Soup вместо этого, и у него есть хорошая документация .

    Вас может заинтересовать lxml . Это отдельный пакет и имеет C-компоненты, но самый быстрый. Он также имеет очень хороший API, позволяющий легко перечислить ссылки в HTML-документах, или формы списка, дезинфицировать HTML и многое другое. Он также имеет возможности анализировать не правильно сформированный HTML (он настраивается).

    Вы также должны посмотреть на html5lib для Python, поскольку он пытается разобрать HTML так, чтобы он очень напоминал то, что делают веб-браузеры, особенно при работе с недействительным HTML (что составляет более 90% сегодняшней сети).

    Я не рекомендую BeautifulSoup, если вы хотите скорость. lxml намного, намного быстрее, и вы можете вернуться в spparser's lxml, если парсер по умолчанию не работает.

    Для обработки HTML в реальном мире я бы рекомендовал BeautifulSoup . Это здорово и отнимает большую часть боли. Установка проста.

    Есть ссылка на пример внизу ( http://docs.python.org/2/library/htmlparser.html ), он просто не работает с исходным python или python3. Это должно быть python2, поскольку он говорит сверху.

    Python - лучший язык программирования в мире.