Пакет Python для Multi-Threaded Spider с поддержкой прокси-сервера?

Вместо того, чтобы просто использовать urllib, кто-нибудь знает о самом эффективном пакете для быстрой многопоточной загрузки URL-адресов, которые могут работать через HTTP-прокси? Я знаю несколько таких, как Twisted, Scrapy, libcurl и т. Д., Но я не знаю достаточно о них, чтобы принять решение или даже если они могут использовать прокси. Кто-нибудь знает о лучшем для моих целей? Благодаря!

2 Solutions collect form web for “Пакет Python для Multi-Threaded Spider с поддержкой прокси-сервера?”

просто реализовать это в python.

Функция urlopen () работает прозрачно с прокси-серверами, для которых не требуется аутентификация. В среде Unix или Windows задайте переменные среды http_proxy, ftp_proxy или gopher_proxy URL-адресу, который идентифицирует прокси-сервер перед запуском интерпретатора Python

# -*- coding: utf-8 -*- import sys from urllib import urlopen from BeautifulSoup import BeautifulSoup from Queue import Queue, Empty from threading import Thread visited = set() queue = Queue() def get_parser(host, root, charset): def parse(): try: while True: url = queue.get_nowait() try: content = urlopen(url).read().decode(charset) except UnicodeDecodeError: continue for link in BeautifulSoup(content).findAll('a'): try: href = link['href'] except KeyError: continue if not href.startswith('http://'): href = 'http://%s%s' % (host, href) if not href.startswith('http://%s%s' % (host, root)): continue if href not in visited: visited.add(href) queue.put(href) print href except Empty: pass return parse if __name__ == '__main__': host, root, charset = sys.argv[1:] parser = get_parser(host, root, charset) queue.put('http://%s%s' % (host, root)) workers = [] for i in range(5): worker = Thread(target=parser) worker.start() workers.append(worker) for worker in workers: worker.join() 

обычно прокси фильтруют веб-сайты категорически на основе того, как был создан веб-сайт. Трудно передавать данные через прокси на основе категорий. Например, youtube классифицируется как аудио / видеопотоки, поэтому youtube блокируется в некоторых местах espically school. Если вы хотите обходить прокси-серверы и получать данные с веб-сайта и размещать их на своем собственном веб-сайте, таком как веб-сайт dot com, который можно зарегистрировать для вас. Когда вы делаете и регистрируете веб-сайт, классифицируйте свой сайт как угодно.

  • Преобразование HTTP-прокси в HTTPS-прокси в Twisted
  • Как запретить пользователям из моего приложения Django (с завихрением)
  • Обратный прокси-сервер, поддерживающий чистый веб-сервер python?
  • Mitmproxy tampering GET и запрос / ответ POST в одном скрипте
  • Как я могу ответить на запрос метода CONNECT на прокси-сервере, используя сокет в python?
  • Получить прокси-адрес ip-адрес, используя сканирование
  • Поддержка прокси-сервера python smtplib
  • Python urllib2: не может назначить запрошенный адрес
  • Python - лучший язык программирования в мире.