Tag: urllib2

Получить текст детей в div с beautifulsoup

Привет, я хочу описание приложения в Google Playstore. ( https://play.google.com/store/apps/details?id=com.wetter.androidclient&hl=de ) import urllib2 from bs4 import BeautifulSoup soup = BeautifulSoup(urllib2.urlopen("https://play.google.com/store/apps/details?id=com.wetter.androidclient&hl=de")) result = soup.find_all("div", {"class":"show-more-content text-body"}) С помощью этого кода я получаю весь контент в этом классе. Но я не могу получить только текст в нем. Я пробовал много вещей с next_silbing или .text, но он […]

Проверьте, не доступен ли доступ к Интернету в Python

У меня есть приложение, которое делает HTTP GET-запрос конкретному URL-адресу в Интернете. Но когда сеть отключена (скажем, никакой публичный Wi-Fi – или мой интернет-провайдер не работает, или что-то подобное), я получаю следующую urllib2.urlopen на urllib2.urlopen : 70, in get u = urllib2.urlopen(req) File "/Library/Frameworks/Python.framework/Versions/2.6/lib/python2.6/urllib2.py", line 126, in urlopen return _opener.open(url, data, timeout) File "/Library/Frameworks/Python.framework/Versions/2.6/lib/python2.6/urllib2.py", line […]

NameError: имя 'urllib2' не определено

В настоящее время я создаю webscrapper, и мне нужно поймать исключения URL. Мой пример кода приведен ниже. from urllib2 import urlopen Try: //some code Except urllib2.HTTPError: pass

Как бороться с дефлированным ответом urllib2?

В настоящее время я использую следующий код для распаковки gzip-ответа с помощью urllib2: opener = urllib2.build_opener() response = opener.open(req) data = response.read() if response.headers.get('content-encoding', '') == 'gzip': data = StringIO.StringIO(data) gzipper = gzip.GzipFile(fileobj=data) html = gzipper.read() Он также обрабатывает дефлированный ответ или мне нужно написать отдельный код для обработки дефлированного ответа?

Python: urlretrieve загрузка PDF

Я использую функцию urlretrieve () urllib в Python, чтобы попытаться захватить некоторые pdf-файлы с веб-сайтов. Он (по крайней мере для меня) прекратил работу и загружает поврежденные данные (15 КБ вместо 164 КБ). Я проверил это с несколькими pdf- файлами , все без успеха (например, random.pdf ). Я не могу заставить его работать, и мне нужно […]

Установка модулей python через прокси-сервер

Я хочу установить пару пакетов python, которые используют easy_install. Они используют модуль urrlib2 в своем сценарии установки. Я попробовал использовать прокси-сервер компании, чтобы позволить easy_install загружать требуемые пакеты. Поэтому, чтобы проверить прокси-соединение, я попробовал следующий код. Мне не нужно предоставлять какие-либо учетные данные для прокси-сервера в IE. proxy = urllib2.ProxyHandler({"http":"http://mycompanyproxy-as-in-IE:8080"}) opener = urllib2.build_opener(proxy) urllib2.install_opener(opener) site […]

Загрузка Python без предоставления имени файла

Как загрузить файл с отчетами о ходе работы с помощью python, но без предоставления имени файла. Я попробовал urllib.urlretrieve, но мне, похоже, нужно указать имя файла для загруженного файла, чтобы сохранить его. Так, например: Я не хочу это делать: urllib.urlretrieve("http://www.mozilla.com/products/download.html?product=firefox-3.6.3&os=win&lang=en-US", "/tmp/firefox.exe") просто это: urllib.urlretrieve("http://www.mozilla.com/products/download.html?product=firefox-3.6.3&os=win&lang=en-US", "/tmp/") но если я это сделаю, я получу эту ошибку: IOError: […]

получить много страниц с pycurl?

Я хочу получить много страниц с веб-сайта, например curl "http://farmsubsidy.org/DE/browse?page=[0000-3603]" -o "de.#1" но получить данные страниц на python, а не на файлы на диске. Может кто-то, пожалуйста, pycurl код pycurl чтобы сделать это, или быстрый urllib2 (не один раз в то время), если это возможно, или сказать: «Забудь об этом, завиток быстрее и надежнее»? благодаря

В Python, как проверить, действительно ли две разные ссылки указывают на одну и ту же страницу?

Например, эти 2 ссылки указывают на одно и то же местоположение: http://www.independent.co.uk/life-style/gadgets-and-tech/news/chinese-blamed-for-gmail-hacking-2292113.html http://www.independent.co.uk/life-style/gadgets-and-tech/news/2292113.html Как проверить это на python?

Открыть страницу программно в python

Вы можете извлечь номер VIN с этой веб-страницы ? Я попробовал urllib2.build_opener , запросы и механизировать. Я также предоставил пользовательский агент, но ни один из них не смог увидеть VIN. opener = urllib2.build_opener() opener.addheaders = [('User-agent',('Mozilla/5.0 (Macintosh; Intel Mac OS X 10_6_7) ' 'AppleWebKit/535.1 (KHTML, like Gecko) ' 'Chrome/13.0.782.13 Safari/535.1'))] page = opener.open(link) soup = […]

Python - лучший язык программирования в мире.