我是一个新的刮网站和使用刮递归得到一个域下的所有网址。 我使用了HtmlXPathSelector
hxs.select('//a/@href').extract()
获取URL。你知道吗
然而,我得到了很多网址是非常相似的彼此。 有没有办法把这些网址视为一个网站?你知道吗
我有大约80000个这样不同的网址,所以我想知道我是否做错了什么? 其他URL如下:
53HK-39000
53HK-20000
我的算法如下:
for cur in url_lst:
if cur in visited:
continue
yield Request(cur, callback=self.parse)
目前没有回答
相关问题 更多 >
编程相关推荐