2024-05-12 01:10:24 发布
网友
在scrapy项目中,我们可以通过eg的JOBDIR设置定义一个job目录来获得持久性支持
scrapy crawl somespider -s JOBDIR=crawls/somespider-1
但是如何在运行spider时使用爬虫程序从python脚本中得到的答案是How to run Scrapy from within a Python script?
正如您的参考问题所指出的,您可以将设置传递给CrawlerProcess实例。在
因此,您只需通过JOBDIR设置:
JOBDIR
import scrapy from scrapy.crawler import CrawlerProcess class MySpider(scrapy.Spider): # Your spider definition ... process = CrawlerProcess({ 'JOBDIR': 'crawls/somespider-1' # < - Here }) process.crawl(MySpider) process.start()
正如您的参考问题所指出的,您可以将设置传递给CrawlerProcess实例。在
因此,您只需通过
JOBDIR
设置:相关问题 更多 >
编程相关推荐