擅长:python、mysql、java
<p>默认情况下,scrapy不会在爬网中通过使用重复过滤器(默认情况下启用)发出duplicaterequest。设置参数DUPEFILTER_CLAS决定使用哪个过滤器
它的默认值是:'刮花.dupefilter.RFPDupeFilter'. 事实上,它只是
现在就选择。
如果你想要一个持久的特性,你应该设置一个JOBDIR。然后,scrapy将存储访问的URL,并在下一次运行时将其加载到过滤器的dict中。在</p>
<p>你可以在这里得到一些提示:
<a href="http://groups.google.com/group/scrapy-users/browse_thread/thread/56546e9fab7030f3" rel="nofollow">http://groups.google.com/group/scrapy-users/browse_thread/thread/56546e9fab7030f3</a></p>