Как развернуть паук Scrapy на облаке Heroku

Я разработал несколько пауков в scrapy, и я хочу проверить их на облаке Heroku. Кто-нибудь имеет представление о том, как развернуть паук Scrapy на облаке Heroku?

Да, довольно просто развернуть и запустить ваш паук Scrapy на Heroku.

Ниже приведены шаги с использованием реального проекта Scrapy:

  1. Клонируйте проект (обратите внимание, что он должен иметь файл requirements.txt для Heroku, чтобы распознать его как проект Python):

    git clone https://github.com/scrapinghub/testspiders.git

  2. Добавьте cffi в файл require.txt (например, cffi == 1.1.0).

  3. Создайте приложение Heroku (это добавит новый пульт героя git):

    heroku create

  4. Разверните проект (это займет время в первый раз, когда будет создан слиз):

    git push heroku master

  5. Запустите свой паук:

    heroku run scrapy crawl followall

Некоторые примечания:

  • Диск Heroku является эфемерным. Если вы хотите сохранить очищенные данные в постоянном месте, вы можете использовать экспорт -o s3://mybucket/items.jl S3 (путем добавления -o s3://mybucket/items.jl ) или использовать аддон (например, MongoHQ или Redis To Go) и написать трубопровод для хранения ваших товаров там
  • Было бы здорово запустить сервер Scrapyd на Heroku, но в настоящее время это невозможно, потому что модуль sqlite3 (который требует Scrapyd) не работает на Heroku
  • Если вам требуется более сложное решение для развертывания ваших пауков Scrapy, подумайте о настройке собственного сервера Scrapyd или использовании размещенного сервиса, такого как Scrapy Cloud