spider中间件中的异步数据库请求？

class SkipDupeMiddleware(object): process_spider_output(response, result, spider): for r in result: if isinstance(r, Request) and item_in_database(r.url): log.msg('Skip %s' % r.url) else: yield r

3条回答

网友

1楼 · 编辑于 2024-10-05 12:21:59

阿法伊克

瘙痒大多是同步的。只有页面的下载是异步完成的，这就是请求有回调的原因。在

管道和中间件是同步的。在

网友

2楼 · 编辑于 2024-10-05 12:21:59

您可以（并且应该）从管道process_item()方法返回延迟的。在

网友

3楼 · 编辑于 2024-10-05 12:21:59

默认情况下，scrapy不会在爬网中通过使用重复过滤器（默认情况下启用）发出duplicaterequest。设置参数DUPEFILTER_CLAS决定使用哪个过滤器它的默认值是：'刮花.dupefilter.RFPDupeFilter'. 事实上，它只是现在就选择。如果你想要一个持久的特性，你应该设置一个JOBDIR。然后，scrapy将存储访问的URL，并在下一次运行时将其加载到过滤器的dict中。在

你可以在这里得到一些提示： http://groups.google.com/group/scrapy-users/browse_thread/thread/56546e9fab7030f3

相关问题更多 >

编程相关推荐

热门问题

热门文章