import scrapy
class BlogSpider(scrapy.Spider):
name = 'blogspider'
start_urls = ['https://blog.scrapinghub.com']
def parse(self, response):
links_count = {}
for link in response.css('a').xpath('@href').extract():
if link in links_count:
links_count[link] += 1
else:
links_count[link] = 1
yield links_count
This Scrapy Documentation可能会帮助您开始。这个代码可能会对你有所帮助。在
运行:
^{pr2}$结果:
如果查看
RFPDupeFilter
here的源代码,可以看到它记录了过滤后的请求数。在如果在子类中修改
log()
方法,则可以以最小的工作量获得每个url的结果。在像这样简单的方法就可以做到这一点,或者您可能想进一步细化它(确保设置了^{} 设置):
相关问题 更多 >
编程相关推荐