抓取部分数据的爬虫

2024-09-21 08:27:13 发布

您现在位置:Python中文网/ 问答频道 /正文

我用Scrapy来爬虫一些网站。在

我需要每小时获取数据,所以我创建了一个crontab来启动我的爬虫程序。我为每个爬虫程序编写了一个python脚本,并为每个“subscript”编写了另一个脚本。在

所以我有一个“”脚本

"os.system("cd /home/.../directory1 ; python directory1Launch.py")"

以及一些“”脚本

os.system("scrapy crawl directory 1 -a start_url \"urls\" -o data.json")"

对于一定数量的爬虫。在

那很好用。然后我不得不在管道中添加一些函数。现在有两个爬虫程序(在同一个站点上工作)只对一小部分数据(2项而不是7项)进行爬网。在

事实上,如果我手动启动“主”脚本,一切都可以正常工作。在

另一个爬虫和以前一样工作。在

解析器花费的时间太长了吧但手动发射时也会发生。。。在

有什么想法吗?在


Tags: 程序脚本homeos网站cd手动system

热门问题