HTTP错误403:禁止使用urlretri

import urllib.request import urllib.parse import requests def download_pdf(url): full_name = "Test.pdf" urllib.request.urlretrieve(url, full_name) try: url = ('http://papers.xtremepapers.com/CIE/Cambridge%20IGCSE/Mathematics%20(0580)/0580_s03_qp_1.pdf') print('initialized') hdr = {} hdr = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36', 'Content-Length': '136963', } print('HDR recieved') req = urllib.request.Request(url, headers=hdr) print('Header sent') resp = urllib.request.urlopen(req) print('Request sent') respData = resp.read() download_pdf(url) print('Complete') except Exception as e: print(str(e))

1条回答

网友

1楼 · 发布于 2024-05-17 02:36:11

您似乎已经意识到了这一点；远程服务器显然正在检查用户代理头并拒绝来自Python的urllib的请求。但是urllib.request.urlretrieve()不允许您更改HTTP头，但是，您可以使用^{}：

import urllib.request

opener = urllib.request.URLopener()
opener.addheader('User-Agent', 'whatever')
filename, headers = opener.retrieve(url, 'Test.pdf')

注意：您正在使用Python 3，这些函数现在被认为是"Legacy interface"的一部分，并且URLopener已经被弃用。因此，您不应该在新代码中使用它们。

除此之外，简单地访问一个URL会带来很多麻烦。您的代码导入^{}，但您不使用它-您应该使用它，因为它比urllib容易得多。这对我有效：

import requests

url = 'http://papers.xtremepapers.com/CIE/Cambridge%20IGCSE/Mathematics%20(0580)/0580_s03_qp_1.pdf'
r = requests.get(url)
with open('0580_s03_qp_1.pdf', 'wb') as outfile:
    outfile.write(r.content)

相关问题更多 >

编程相关推荐

热门问题

热门文章