如何从python脚本运行和保存scrapy状态

2024-05-12 01:10:24 发布

您现在位置:Python中文网/ 问答频道 /正文

在scrapy项目中,我们可以通过eg的JOBDIR设置定义一个job目录来获得持久性支持

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

但是如何在运行spider时使用爬虫程序从python脚本中得到的答案是How to run Scrapy from within a Python script


Tags: 项目程序目录脚本定义job持久性爬虫
1条回答
网友
1楼 · 发布于 2024-05-12 01:10:24

正如您的参考问题所指出的,您可以将设置传递给CrawlerProcess实例。在

因此,您只需通过JOBDIR设置:

import scrapy
from scrapy.crawler import CrawlerProcess

class MySpider(scrapy.Spider):
    # Your spider definition
    ...

process = CrawlerProcess({
    'JOBDIR': 'crawls/somespider-1'  # <  - Here
})

process.crawl(MySpider)
process.start() 

相关问题 更多 >