如何将项目与数据库中的记录匹配？

scrapy_id | scrapy_name | url ------------+---------------+----------------- 111 | aaa | http://url1.com 222 | bbb | http://url2.com 333 | ccc | http://url3.com

class PgsqlPipeline(object): ... def open_spider(self, spider): self.conn = psycopg2.connect(database=self.XXX, user=self.XXX, password=self.XXX) self.cur = self.conn.cursor() spider.myPipeline = self def get_urls(self): get_urls_sql = """ SOME_SQL_STATMENTS """ self.cur.execute(get_urls_sql) rows = self.cur.fetchall() return rows ...

.... class SephoraSpider(Spider): name = 'XXX' allowed_domains = ['XXX'] def start_requests(self): for row in self.myPipeline.get_urls(): self.item = SomeItem() url = str(row[2]) self.item['id'] = row[0] self.item['name'] = row[1] yield Request(self.url, callback=self.parse_item) def parse_item(self, response): self.item['text'] = response.xpath('XXXX').get() return self.item ....

1条回答

网友

1楼 · 发布于 2024-09-07 12:29:01

您不能使用self来存储请求元数据，因为您只在启动请求时设置它；您需要将数据与请求一起持久化，而不是与SephoraSpider类实例一起持久化。在parse_item回调中，它将被设置为上次启动的请求的值。相反，您可以使用Request.meta字段：

class SephoraSpider(Spider):
    name = 'XXX'
    allowed_domains = ['XXX']

    def start_requests(self):
        for row in self.myPipeline.get_urls():
            url = str(row[2])
            item = {'id': row[0], 'name': row[1], 'url': row[2]}
            yield Request(self.url, callback=self.parse_item, meta={'item': item})

    def parse_item(self, response):
        item = response.meta['item']
        item['text'] = response.xpath('XXXX').get()
        return item

详情请参见docs

相关问题更多 >

编程相关推荐

热门问题

热门文章