2024-10-01 07:33:47 发布
网友
调度程序中存在的重复筛选器与IgnoreVisitedItems middleware之间有什么区别?在
Google组线程,它表明调度程序中存在重复的筛选器:http://groups.google.com/group/scrapy-users/browse_thread/thread/8e218bcc5b293532
调度器中的重复过滤器只过滤出在单个spider运行中已经看到的url(这意味着它将在后续运行中重置)。IgnoreVistedItems中间件将在运行和避免访问过去看到的url之间保持一个状态,但只针对最终的项目url,以便可以重新对站点的其余部分进行爬网(以便查找新项目)。在
调度器中的重复过滤器只过滤出在单个spider运行中已经看到的url(这意味着它将在后续运行中重置)。IgnoreVistedItems中间件将在运行和避免访问过去看到的url之间保持一个状态,但只针对最终的项目url,以便可以重新对站点的其余部分进行爬网(以便查找新项目)。在
相关问题 更多 >
编程相关推荐