Tag: beautifulsoup

Beautifulsoup – родственная структура с тегами br

Я пытаюсь проанализировать HTML-документ с помощью библиотеки BeautifulSoup Python, но структура искажается с помощью тегов. Позвольте мне привести вам пример. Введите HTML: <div> some text <br> <span> some more text </span> <br> <span> and more text </span> </div> HTML, который BeautifulSoup интерпретирует: <div> some text <br> <span> some more text </span> <br> <span> and more […]

Ответы BeautifulSoup с ошибкой

Я пытаюсь намочить ноги BS. Я попытался проделать свой путь через документацию, но на первом этапе, с которым я столкнулся, уже возникла проблема. Это мой код: from bs4 import BeautifulSoup soup = BeautifulSoup('https://api.flickr.com/services/rest/?method=flickr.photos.search&api_key=5….1b&per_page=250&accuracy=1&has_geo=1&extras=geo,tags,views,description') print(soup.prettify()) Это ответ, который я получаю: Warning (from warnings module): File "/Library/Frameworks/Python.framework/Versions/3.3/lib/python3.3/site-packages/bs4/__init__.py", line 189 '"%s" looks like a URL. Beautiful Soup is […]

Beautifulsoup 4: Удалить тег комментария и его содержимое

Таким образом, страница, которую я использую, содержит эти html-коды. Как удалить тег комментария <!– –> вместе с его содержимым с помощью bs4 ? <div class="foo"> cat dog sheep goat <!– <p>NewPP limit report Preprocessor node count: 478/300000 Post‐expand include size: 4852/2097152 bytes Template argument size: 870/2097152 bytes Expensive parser function count: 2/100 ExtLoops count: 6/100 […]

BeautifulSoup возвращает неожиданные дополнительные пробелы

Я пытаюсь захватить некоторый текст из html-документов с помощью BeautifulSoup. В очень подходящем случае для меня это вызывает странный и интересный результат: после определенного момента суп заполняется лишними пробелами в тексте (пробел отделяет каждую букву от следующего). Я попытался найти в Интернете, чтобы найти причину этого, но я встретил только некоторые новости о противоположной ошибке […]

Как найти промежутки с определенным классом, содержащим определенный текст, используя красивый суп и re?

как я могу найти весь диапазон с классом 'blue' который содержит текст в формате: 04/18/13 7:29pm что может быть: 04/18/13 7:29pm или: Posted on 04/18/13 7:29pm с точки зрения построения логики для этого, это то, что я получил до сих пор: new_content = original_content.find_all('span', {'class' : 'blue'}) # using beautiful soup's find_all pattern = re.compile('<span […]

Вход в веб-сайт с помощью веб-скребок в Python

Я использую Selenium webdriver в Python для проекта веб-очистки. Я хотел бы войти в систему, введя данные для входа в систему, а затем нажмите кнопку «Отправить». Я могу ввести имя пользователя и пароль. Но я не могу mouseclick кнопку отправки. Кнопка «отправить» имеет тип <input> . <input type="image" src="http://img.rupython.com/pythonbuttons/loginnow.gif" tabindex="3"> Вот код python, где я […]

Библиотека Python для создания jQuery-текста?

У меня есть html, который содержит записи вроде этого: <div class="entry"> <h3 class="foo"> <a href="http://www.example.com/blog-entry-slug" rel="bookmark">Blog Entry</a> </h3> … </div> и я хотел бы извлечь текст «Запись в блоге» (и ряд других атрибутов, поэтому я ищу общий ответ). В jQuery я бы сделал $('.entry a[rel=bookmark]').text() ближайший, с которым я смог попасть в Python: from BeautifulSoup […]

Могу ли я прочитать URL-адрес браузера с помощью selenium webdriver?

Я использую python2.7 с beautiful Soup4 and Selenium webdriver . Теперь в моем скрипте webautomation я открою ссылку или URL-адрес и войду на домашнюю страницу. Теперь мне нужно щелкнуть на некоторых anchor Labels ярлыках, чтобы перемещаться по другим страницам. Я делал это до сих пор. теперь, когда я Beautiful Soup4 на новую страницу, мне нужно […]

Не удается установить Beautifulsoup («bs4 не существует»)

Я пытаюсь установить BeautifulSoup на Windows. Пока у меня есть: скачал BeautifulSoup на «Мои загрузки». распаковать / извлечь его в папке с загрузками. В командной строке я запустил: C:<path to python33> "C:path to beautiful soup\setup.py" install Процесс генерировал сообщения: running install running build running build_py **error: package directory 'bs4' does not exist.** Тем не менее, […]

Ошибка глубины рекурсии при использовании BeautifulSoup с картой пула многопроцессорности

Я использую BeautifulSoup для разбора html-файлов, в то время как все написанные мной сценарии работают хорошо, но медленнее. Поэтому я экспериментирую с использованием многопроцессорного пула рабочих вместе с BeautifulSoup, поэтому моя программа может работать быстрее (у меня есть 100 000 – 1 000 000 html файлов для открытия). Сценарий, который я написал, более сложный, но […]

Python - лучший язык программирования в мире.