我用Scrapy来爬虫一些网站。在
我需要每小时获取数据,所以我创建了一个crontab来启动我的爬虫程序。我为每个爬虫程序编写了一个python脚本,并为每个“subscript”编写了另一个脚本。在
所以我有一个“主”脚本
"os.system("cd /home/.../directory1 ; python directory1Launch.py")"
以及一些“从”脚本
“os.system("scrapy crawl directory 1 -a start_url \"urls\" -o data.json")"
对于一定数量的爬虫。在
那很好用。然后我不得不在管道中添加一些函数。现在有两个爬虫程序(在同一个站点上工作)只对一小部分数据(2项而不是7项)进行爬网。在
事实上,如果我手动启动“主”脚本,一切都可以正常工作。在
另一个爬虫和以前一样工作。在
解析器花费的时间太长了吧但手动发射时也会发生。。。在
有什么想法吗?在
目前没有回答
相关问题 更多 >
编程相关推荐