刮独特的网站与刮

2024-09-29 01:33:57 发布

您现在位置:Python中文网/ 问答频道 /正文

我是一个新的刮网站和使用刮递归得到一个域下的所有网址。 我使用了HtmlXPathSelector

hxs.select('//a/@href').extract() 

获取URL。你知道吗

然而,我得到了很多网址是非常相似的彼此。 有没有办法把这些网址视为一个网站?你知道吗

示例: http://infohawk.uiowa.edu:80/F/YY75HHTMTKKDNCBT7JBYQBH64VAFXIDNMS1YT4MRKSVF5A53HK-21930?func=myshelf-short&folder=BASKET&folder_key=BASKET&sort_option=04---A

http://infohawk.uiowa.edu:80/F/YY75HHTMTKKDNCBT7JBYQBH64VAFXIDNMS1YT4MRKSVF5A53HK-09565?func=myshelf-short&folder=BASKET&folder_key=BASKET&sort_option=04---A

我有大约80000个这样不同的网址,所以我想知道我是否做错了什么? 其他URL如下:

53HK-39000
53HK-20000

我的算法如下:

for cur in url_lst:
    if cur in visited:
         continue
    yield Request(cur, callback=self.parse)

Tags: keyhttpurl网站foldershortfunc网址