如何使用urllib从web下载图像

ERROR The requested URL could not be retrieved While trying to retrieve the URL: http://upload.wikimedia.org/wikipedia/en/4/44/Zindagi1976.jpg The following error was encountered: Access Denied. Access control configuration prevents your request from being allowed at this time. Please contact your service provider if you feel this is incorrect. Your cache administrator is nobody. Generated Mon, 05 Dec 2011 17:19:53 GMT by sq56.wikimedia.org (squid/2.7.STABLE9)

1条回答

网友

1楼 · 发布于 2024-10-01 02:20:20

如果使用了以下选项，则可以下载图像：

wget http://upload.wikimedia.org/wikipedia/en/4/44/Zindagi1976.jpg

但如果你这样做了：

from urllib import urlretrieve
urlretrieve('http://upload.wikimedia.org/wikipedia/en/4/44/Zindagi1976.jpg', 
            'Zindagi1976.jpg')

您可能无法下载图像。这可能是因为维基百科可能有规则（robot.txt）来拒绝机器人或机器人（未知客户端）。尝试模拟浏览器。

为此，必须将以下内容添加为标题的一部分：

('User-agent', 
 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) 
 Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')

您可以这样做：

>>> from urllib import FancyURLopener
>>> class MyOpener(FancyURLopener):
...     version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'
... 
>>> myopener = MyOpener()
>>> myopener.retrieve('http://upload.wikimedia.org/wikipedia/en/4/44/Zindagi1976.jpg', 'Zindagi1976.jpg')
('Zindagi1976.jpg', <httplib.HTTPMessage instance at 0x1007bfe18>)

这将检索文件

相关问题更多 >

编程相关推荐

热门问题

热门文章