在Scrapy python中向process.crawn传递参数

2024-10-04 08:35:17 发布

您现在位置：Python中文网/ 问答频道 /正文

1206

网友

男 | 程序猿一只，喜欢编程写python代码。

我希望得到与此命令行相同的结果： scrapy crawl linkedin_anonymous-a first=James-a last=Bond-o output.json

我的剧本如下：

import scrapy
from linkedin_anonymous_spider import LinkedInAnonymousSpider
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

spider = LinkedInAnonymousSpider(None, "James", "Bond")
process = CrawlerProcess(get_project_settings())
process.crawl(spider) ## <-------------- (1)
process.start()

我发现（1）中的process.crawl（）正在创建另一个LinkedInAnonymousSpider，其中first和last都不是（在（2）中打印的），如果是，那么就没有创建对象spider的意义，如何能够将参数首先和最后传递给process.crawl（）？

linkedin匿名：

from logging import INFO

import scrapy

class LinkedInAnonymousSpider(scrapy.Spider):
    name = "linkedin_anonymous"
    allowed_domains = ["linkedin.com"]
    start_urls = []

    base_url = "https://www.linkedin.com/pub/dir/?first=%s&last=%s&search=Search"

    def __init__(self, input = None, first= None, last=None):
        self.input = input  # source file name
        self.first = first
        self.last = last

    def start_requests(self):
        print self.first ## <------------- (2)
        if self.first and self.last: # taking input from command line parameters
                url = self.base_url % (self.first, self.last)
                yield self.make_requests_from_url(url)

    def parse(self, response): . . .

Tags： from import self none url input process spider

2条回答

网友

1楼 · 编辑于 2024-10-04 08:35:17

你可以用简单的方法：

from scrapy import cmdline

cmdline.execute("scrapy crawl linkedin_anonymous -a first=James -a last=Bond -o output.json".split())

网友

2楼 · 编辑于 2024-10-04 08:35:17

在process.crawl方法上传递spider参数：

process.crawl(spider, input='inputargument', first='James', last='Bond')

在Scrapy python中向process.crawn传递参数

相关问题更多 >

编程相关推荐

热门问题

热门文章

在Scrapy python中向process.crawn传递参数

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >