垃圾过滤重复请求

2024-10-01 07:33:47 发布

您现在位置:Python中文网/ 问答频道 /正文

调度程序中存在的重复筛选器与IgnoreVisitedItems middleware之间有什么区别?在

Google组线程,它表明调度程序中存在重复的筛选器:http://groups.google.com/group/scrapy-users/browse_thread/thread/8e218bcc5b293532


Tags: 程序comhttpgooglegroup调度线程thread
1条回答
网友
1楼 · 发布于 2024-10-01 07:33:47

调度器中的重复过滤器只过滤出在单个spider运行中已经看到的url(这意味着它将在后续运行中重置)。IgnoreVistedItems中间件将在运行和避免访问过去看到的url之间保持一个状态,但只针对最终的项目url,以便可以重新对站点的其余部分进行爬网(以便查找新项目)。在

相关问题 更多 >