Как развернуть паук Scrapy на облаке Heroku

Я разработал несколько пауков в scrapy, и я хочу проверить их на облаке Heroku. Кто-нибудь имеет представление о том, как развернуть паук Scrapy на облаке Heroku?

One Solution collect form web for “Как развернуть паук Scrapy на облаке Heroku”

Да, довольно просто развернуть и запустить ваш паук Scrapy на Heroku.

Ниже приведены шаги с использованием реального проекта Scrapy:

  1. Клонируйте проект (обратите внимание, что он должен иметь файл requirements.txt для Heroku, чтобы распознать его как проект Python):

    git clone https://github.com/scrapinghub/testspiders.git

  2. Добавьте cffi в файл require.txt (например, cffi == 1.1.0).

  3. Создайте приложение Heroku (это добавит новый пульт героя git):

    heroku create

  4. Разверните проект (это займет время в первый раз, когда будет создан слиз):

    git push heroku master

  5. Запустите свой паук:

    heroku run scrapy crawl followall

Некоторые примечания:

  • Диск Heroku является эфемерным. Если вы хотите сохранить очищенные данные в постоянном месте, вы можете использовать экспорт -o s3://mybucket/items.jl S3 (путем добавления -o s3://mybucket/items.jl ) или использовать аддон (например, MongoHQ или Redis To Go) и написать трубопровод для хранения ваших товаров там
  • Было бы здорово запустить сервер Scrapyd на Heroku, но в настоящее время это невозможно, потому что модуль sqlite3 (который требует Scrapyd) не работает на Heroku
  • Если вам требуется более сложное решение для развертывания ваших пауков Scrapy, подумайте о настройке собственного сервера Scrapyd или использовании размещенного сервиса, такого как Scrapy Cloud
  • Scrapy сканирует все ссылки sitemap
  • объекты для очистки не являются сериализуемыми JSON, сохраняя их на couchdb
  • Извлеките многострочный контент javascript из тега <script>, используя Scrapy
  • Scrapy - как идентифицировать уже очищенные URL-адреса
  • Когда новый файл поступает на S3, запускается задача luigi
  • Куки-файлы Python Scrapy не работают, но работают в PHP cURL-коде
  • scrapy, как импортировать настройки, чтобы переопределить его
  • Scrapy - доступ к данным при обходе и случайном изменении пользовательского агента
  • Python - лучший язык программирования в мире.