获取URL的返回码python urllib

df['returncode']: 0 Obsolete 1 Obsolete 2 Obsolete 3 Obsolete 4 Obsolete 5 Obsolete 6 Obsolete 7 Obsolete 8 Obsolete 9 Obsolete 10 Obsolete 11 Obsolete

http://study.com/odfv.html obsolete http://www.meghansfashion.com/uploads/2/1/2/9/21295692/2_75_orig.png 200 http://p16.muscdn.com/img/tos-maliva-p-0068/8ab65f6aac844cdf83526b5662720be3~c5_300x400.jpeg 200 http://config.88-f.net/hb/c1/pxbfwsp obsolete

3条回答

网友

1楼 · 编辑于 2024-05-17 04:05:16

您可以使用urllib2获取http响应代码。你是最重要的这样，您只需要正确处理异常urllib2 收到错误http响应时引发异常

import urllib2

urls = ['http://www.google.com', 'http://google.com/does-not-exist']

for url in urls:
    try:
        res = urllib2.urlopen(url)
        code = res.getcode()
    except urllib2.HTTPError as err:
        code = err.getcode()

    print('{}: {}'.format(url, code))

这将输出：

http://www.google.com: 200
http://google.com/does-not-exist: 404

网友

2楼 · 编辑于 2024-05-17 04:05:16

Getting return codes of URLs python urllib

您可以使用requests获取url上的http状态码，即：

import requests
response = requests.get("https://google.com")
print (response.status_code)
# 200

网友

3楼 · 编辑于 2024-05-17 04:05:16

在数据框中输入结果的方式不起作用。命令

df['returncode']= ...

将值放入数据帧的每一行。所以你在结尾看到的是最后发现的值的11倍

为了改进这一点，您需要将结果放入特定的行中。您可以对行进行迭代，如下所示：

for index, row in df.iterrows():
    url = row['URL']
    print(url)
    try:
        #print(urllib2.urlopen(url).getcode())
        row['returncode']=urllib2.urlopen(url).getcode()
    except:
        row['returncode']='Obsolete'
        #print('obsolete')

相关问题更多 >

编程相关推荐

热门问题

热门文章