擅长:python、mysql、java
<p>如果查看<code>RFPDupeFilter</code><a href="https://github.com/scrapy/scrapy/blob/master/scrapy/dupefilters.py#L73" rel="nofollow noreferrer">here</a>的源代码,可以看到它记录了过滤后的请求数。在</p>
<p>如果在子类中修改<code>log()</code>方法,则可以以最小的工作量获得每个url的结果。在</p>
<p>像这样简单的方法就可以做到这一点,或者您可能想进一步细化它(确保设置了<a href="https://doc.scrapy.org/en/latest/topics/settings.html#dupefilter-class" rel="nofollow noreferrer">^{<cd3>}</a>设置):</p>
<pre><code>class URLStatsRFPDupeFilter(RFPDupeFilter):
def log(self, request, spider):
super().log(request, spider)
spider.crawler.stats.inc_value(
'dupefilter/filtered/{}'.format(request.url),
spider=spider
)
</code></pre>