刮独特的网站与刮 - 问答 - Python中文网

刮独特的网站与刮

2024-09-29 01:33:57 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我是一个新的刮网站和使用刮递归得到一个域下的所有网址。我使用了HtmlXPathSelector

hxs.select('//a/@href').extract()

获取URL。你知道吗

然而，我得到了很多网址是非常相似的彼此。有没有办法把这些网址视为一个网站？你知道吗

示例： http://infohawk.uiowa.edu:80/F/YY75HHTMTKKDNCBT7JBYQBH64VAFXIDNMS1YT4MRKSVF5A53HK-21930?func=myshelf-short&folder=BASKET&folder_key=BASKET&sort_option=04---A

http://infohawk.uiowa.edu:80/F/YY75HHTMTKKDNCBT7JBYQBH64VAFXIDNMS1YT4MRKSVF5A53HK-09565?func=myshelf-short&folder=BASKET&folder_key=BASKET&sort_option=04---A

我有大约80000个这样不同的网址，所以我想知道我是否做错了什么？其他URL如下：

53HK-39000
53HK-20000

我的算法如下：

for cur in url_lst:
    if cur in visited:
         continue
    yield Request(cur, callback=self.parse)

Tags： key http url 网站 folder short func 网址

0条回答

目前没有回答

相关问题更多 >

编程相关推荐

热门问题

热门文章