我有一个URL列表,其中一些现在不起作用。我想通过这个列表进行解析,得到这些url的返回码,并将它们存储在一个数据帧中。 我有以下代码:
for url in df['URL'][]:
print(url)
try:
#print(urllib2.urlopen(url).getcode())
df['returncode']=urllib2.urlopen(url).getcode()
except:
df['returncode']='Obsolete'
#print('obsolete')
我得到的是一个列的所有'过时的'
df['returncode']:
0 Obsolete
1 Obsolete
2 Obsolete
3 Obsolete
4 Obsolete
5 Obsolete
6 Obsolete
7 Obsolete
8 Obsolete
9 Obsolete
10 Obsolete
11 Obsolete
如果我打印这些值,我可以看到不同的返回码
http://study.com/odfv.html
obsolete
http://www.meghansfashion.com/uploads/2/1/2/9/21295692/2_75_orig.png
200
http://p16.muscdn.com/img/tos-maliva-p-0068/8ab65f6aac844cdf83526b5662720be3~c5_300x400.jpeg
200
http://config.88-f.net/hb/c1/pxbfwsp
obsolete
我做错什么了
您可以使用
urllib2
获取http响应代码。你是最重要的 这样,您只需要正确处理异常urllib2
收到错误http响应时引发异常这将输出:
您可以使用requests获取url上的http状态码,即:
在数据框中输入结果的方式不起作用。命令
将值放入数据帧的每一行。所以你在结尾看到的是最后发现的值的11倍
为了改进这一点,您需要将结果放入特定的行中。您可以对行进行迭代,如下所示:
相关问题 更多 >
编程相关推荐