抓取部分数据的爬虫

2024-09-21 08:27:13 发布

男 | 程序猿一只，喜欢编程写python代码。

我用Scrapy来爬虫一些网站。在

我需要每小时获取数据，所以我创建了一个crontab来启动我的爬虫程序。我为每个爬虫程序编写了一个python脚本，并为每个“subscript”编写了另一个脚本。在

所以我有一个“主”脚本

"os.system("cd /home/.../directory1 ; python directory1Launch.py")"

以及一些“从”脚本

“os.system("scrapy crawl directory 1 -a start_url \"urls\" -o data.json")"

对于一定数量的爬虫。在

那很好用。然后我不得不在管道中添加一些函数。现在有两个爬虫程序（在同一个站点上工作）只对一小部分数据（2项而不是7项）进行爬网。在

事实上，如果我手动启动“主”脚本，一切都可以正常工作。在

另一个爬虫和以前一样工作。在

解析器花费的时间太长了吧但手动发射时也会发生。。。在

有什么想法吗？在

Tags：程序脚本 home os 网站 cd 手动 system

0条回答

目前没有回答