一个调度碎片蜘蛛的守护程序
scrapy-do-heroku的Python项目详细描述
scrapydo是一个守护进程,它提供了一种运行Scrapyspider的便捷方式。它可以做一次-立即;或者 可以按指定的时间间隔定期运行它们。它的灵感来自 scrapyd但是从头开始写的。它 附带了restapi、命令行客户机和交互式web界面。在
- Homepage: https://jany.st/scrapy-do.html
- Documentation: https://scrapy-do.readthedocs.io/en/latest/
快速入门
使用pip安装scrapy-do:
$ pip install scrapy-do
在在前台启动守护程序:
^{pr2}$ 在打开另一个终端窗口,下载Scrapy的Quotesbot示例,然后 将代码推送到服务器:
$ git clone https://github.com/scrapy/quotesbot.git $cd quotesbot $ scrapy-do-cl push-project +----------------+ | quotesbot | |----------------| | toscrape-css | | toscrape-xpath | +----------------+
在安排一些作业:
$ scrapy-do-cl schedule-job --project quotesbot \ --spider toscrape-css --when 'every 5 to 15 minutes'+--------------------------------------+ | identifier | |--------------------------------------| | 0a3db618-d8e1-48dc-a557-4e8d705d599c | +--------------------------------------+ $ scrapy-do-cl schedule-job --project quotesbot --spider toscrape-css +--------------------------------------+ | identifier | |--------------------------------------| | b3a61347-92ef-4095-bb68-0702270a52b8 | +--------------------------------------+
在看看发生了什么:
在默认情况下,web界面在http://localhost:7654可用。在
源代码构建
以下两个步骤都需要安装nodejs。在
检查工作是否正常:
$ pip install -rrequirements-dev.txt $ tox
在构建车轮:
$ python setup.py bdist_wheel
在
变更日志
- 迁移到引导程序4用户界面
- 为工作添加简短的描述成为可能
- 允许在传递的每个作业中指定用户定义的有效负载 作为python爬虫程序的参数
- 支持上述功能的UI更新
- web UI中的新日志查看器
- 项目
标签: