如何在继承的crawspider中重用基于scrapy的spider的解析方法？

from scrapy.spider import Spider from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from foo.items import AtlanticFirearmsItem from scrapy.contrib.loader import ItemLoader import json import datetime import re class AtlanticFirearmsSpider(Spider): name = "atlantic_firearms" allowed_domains = ["atlanticfirearms.com"] def __init__(self, start_urls='[]', *args, **kwargs): super(AtlanticFirearmsSpider, self).__init__(*args, **kwargs) self.start_urls = json.loads(start_urls) def parse(self, response): l = ItemLoader(item=AtlanticFirearmsItem(), response=response) product = l.load_item() return product

class AtlanticFirearmsCrawlSpider(CrawlSpider, AtlanticFirearmsSpider): name = "atlantic_firearms_crawler" start_urls = [ "http://www.atlanticfirearms.com" ] rules = ( # I know, I need to update these to LxmlLinkExtractor Rule(SgmlLinkExtractor(allow=['detail.html']), callback='parse'), Rule(SgmlLinkExtractor(allow=[], deny=['/bro', '/news', '/howtobuy', '/component/search', 'askquestion'])), )

1条回答

网友

1楼 · 发布于 2024-05-19 18:42:06

你可以在这里避免多重继承。在

把两个蜘蛛合在一起。如果start_urls将从命令行传递-它的行为将类似于CrawlSpider，否则类似于常规蜘蛛：

from scrapy import Item
from scrapy.contrib.spiders import CrawlSpider, Rule

from foo.items import AtlanticFirearmsItem
from scrapy.contrib.loader import ItemLoader
from scrapy.contrib.linkextractors import LinkExtractor

import json


class AtlanticFirearmsSpider(CrawlSpider):
    name = "atlantic_firearms"
    allowed_domains = ["atlanticfirearms.com"]

    def __init__(self, start_urls=None, *args, **kwargs):
        if start_urls:
            self.start_urls = json.loads(start_urls)
            self.rules = []
            self.parse = self.parse_response
        else:
            self.start_urls = ["http://www.atlanticfirearms.com/"]
            self.rules = [
                Rule(LinkExtractor(allow=['detail.html']), callback='parse_response'),
                Rule(LinkExtractor(allow=[], deny=['/bro', '/news', '/howtobuy', '/component/search', 'askquestion']))
            ]

        super(AtlanticFirearmsSpider, self).__init__(*args, **kwargs)

    def parse_response(self, response):
        l = ItemLoader(item=AtlanticFirearmsItem(), response=response)
        product = l.load_item()
        return product

或者，只需将parse()方法中的逻辑提取到一个库函数中，并从两个不相关的、独立的spider调用。在

相关问题更多 >

编程相关推荐

热门问题

热门文章