Tag: beautifulsoup

Как я могу анализировать веб-сайт с использованием Selenium и Beautifulsoup в python?

Новое в программировании и выяснили, как перейти туда, где мне нужно идти, используя Selenium. Я хотел бы проанализировать данные сейчас, но не знаю, с чего начать. Может кто-то держать мою руку в секунду и указывать мне в правильном направлении? Любая помощь оценивается –

ImportError: No Module Named bs4 (BeautifulSoup)

Я работаю в Python и использую Flask. Когда я запускаю свой основной файл Python на своем компьютере, он работает отлично, но когда я активирую venv и запускаю файл Flask Python в терминале, он говорит, что у моего основного файла Python есть «No Module Named bs4». Любые комментарии или советы приветствуются.

Извлечение текста из тега скрипта с помощью BeautifulSoup в Python

Не могли бы вы помочь мне с этим. Я ищу, чтобы извлечь адрес электронной почты, телефон и имя из приведенного ниже кода в теге SCRIPT (не в теле), используя Beautiful soup (Python). Я новичок в Python, и блог рекомендуют использовать красивый суп для извлечения. Я попытался получить страницу, используя следующий код – fileDetails = BeautifulSoup(urllib2.urlopen('http://www.example.com').read()) […]

Как правильно разобрать HTML в кодировке UTF-8 в строки Unicode с помощью BeautifulSoup?

Я запускаю программу Python, которая извлекает веб-страницу с кодировкой UTF-8, и я извлекаю текст из HTML с помощью BeautifulSoup. Однако, когда я пишу этот текст в файл (или печатаю его на консоли), он записывается в неожиданную кодировку. Пример программы: import urllib2 from BeautifulSoup import BeautifulSoup # Fetch URL url = 'http://www.voxnow.de/' request = urllib2.Request(url) request.add_header('Accept-Encoding', […]

Beautiful Soup не может найти класс CSS, если объект имеет другие классы, тоже

если страница имеет <div class="class1"> и <p class="class1"> , то soup.findAll(True, 'class1') найдет их оба. Если он имеет <p class="class1 class2"> , он не будет найден. Как найти все объекты с определенным классом, независимо от того, есть ли у них другие классы?

Разница между .string и .text BeautifulSoup

Я заметил что-то странное в работе с BeautifulSoup и не нашел никакой документации для поддержки этого, поэтому я хотел попросить здесь. Скажем, у нас есть такие теги, которые мы анализировали с помощью BS: <td>Some Table Data</td> <td></td> Официальным документированным способом извлечения данных является soup.string . Однако это извлекло NoneType для второго <td> . Поэтому я […]

Как я могу получить ссылки href из HTML с помощью Python?

import urllib2 website = "WEBSITE" openwebsite = urllib2.urlopen(website) html = getwebsite.read() print html Все идет нормально. Но я хочу только ссылки href из простого текстового HTML. Как я могу решить эту проблему?

Красивый суп findAll не найти их все

Я пытаюсь разобрать веб-сайт и получить информацию с BeautifulSoup.findAll, но он не находит их всех. Я использую python3 код – это #!/usr/bin/python3 from bs4 import BeautifulSoup from urllib.request import urlopen page = urlopen ("http://mangafox.me/directory/") # print (page.read ()) soup = BeautifulSoup (page.read ()) manga_img = soup.findAll ('a', {'class' : 'manga_img'}, limit=None) for manga in manga_img: […]

UnicodeEncodeError: кодек charmap не может кодировать символы

Я пытаюсь очистить веб-сайт, но это дает мне ошибку. Я использую следующий код: import urllib.request from bs4 import BeautifulSoup get = urllib.request.urlopen("https://www.website.com/") html = get.read() soup = BeautifulSoup(html) print(soup) И я получаю следующую ошибку: File "C:\Python34\lib\encodings\cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: 'charmap' codec can't encode characters in position 70924-70950: character maps to <undefined> […]

Можно ли удалить теги сценариев с помощью BeautifulSoup?

Можно ли удалить теги сценариев и все их содержимое из HTML с помощью BeautifulSoup, или мне нужно использовать регулярные выражения или что-то еще?

 
Interesting Posts for Van-Lav

Обнаружение цели OpenCV dot не обнаруживает все цели, и найденные круги смещены

Остановить графический интерфейс pygtk от блокировки во время длительного процесса

Как я могу заставить Selenium Web Driver ждать появления элемента, а не просто присутствовать?

Python: TypeError: объект 'str' не является вызываемой системой рейтинга

Получение исходного номера строки для исключения в concurrent.futures

Синтаксис Python для пустого цикла while

Асинхронный подпроцесс в Windows

Программно сохраняя изображение на Django ImageField

Как сохранить изображение с помощью PIL?

Печать формы в Python

Какой самый быстрый способ извлечь день, месяц и год с определенной даты?

Линейный фитинг в python с неопределенностью как в координатах x, так и y

Ошибка MySQL: 2013, «Потерянное соединение с сервером MySQL при чтении исходного пакета связи», системная ошибка: 0 "

ImportError numpy / core / multiarray.so: undefined symbol: PyUnicodeUCS2_AsASCIIString

Как вызвать функцию Python из Lua?

Python - лучший язык программирования в мире.