输送到后服务区的管道

class StoragePipeline(FilePipeline): access_token = os.environ['access_token'] def get_media_requests(self, item, info): filename = item['filename'] headers = { 'Authorization': f'Bearer {self.access_token}', 'Dropbox-API-Arg': f'{{"path": "/{filename}"}}', 'Content-Type': 'application/octet-stream', } request = Request( method='POST', url='https://content.dropboxapi.com/2/files/upload', headers=headers, body=item['data'], ) yield request def item_completed(self, results, item, info): return item

1条回答

网友

1楼 · 发布于 2024-10-03 13:24:08

通过公开爬虫程序并直接安排请求，可以在管道中安排垃圾请求：

class MyPipeline(object):
    def __init__(self, crawler):
        self.crawler = crawler

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler)

    def process_item(self, item, spider):
        if item['some_extra_field']:  # check if we already did below
            return item
        req = scrapy.Request('some_url', self.check_deploy,
                             method='POST', meta={'item': item})
        self.crawler.engine.crawl(req, spider)
        return item

    def check_deploy(self, response):
        # if not 200 we might want to retry
        if response.status != 200: 
            return response.meta['item']

相关问题更多 >

编程相关推荐

热门问题

热门文章