如何从python脚本运行和保存scrapy状态

2024-05-12 01:10:24 发布

男 | 程序猿一只，喜欢编程写python代码。

在scrapy项目中，我们可以通过eg的JOBDIR设置定义一个job目录来获得持久性支持

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

但是如何在运行spider时使用爬虫程序从python脚本中得到的答案是How to run Scrapy from within a Python script？

Tags：项目程序目录脚本定义 job 持久性爬虫

1条回答

网友

1楼 · 发布于 2024-05-12 01:10:24

正如您的参考问题所指出的，您可以将设置传递给CrawlerProcess实例。在

因此，您只需通过JOBDIR设置：

import scrapy
from scrapy.crawler import CrawlerProcess

class MySpider(scrapy.Spider):
    # Your spider definition
    ...

process = CrawlerProcess({
    'JOBDIR': 'crawls/somespider-1'  # <  - Here
})

process.crawl(MySpider)
process.start()

如何从python脚本运行和保存scrapy状态

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何从python脚本运行和保存scrapy状态

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >