在使用Wget时，如何正确解析web链接以避免403错误？

#!/usr/bin/env python3 import os import glob import pdfx import wget import urllib.parse ## Accessing and Creating Six Digit File Code pdf_dir = "/users/USERNAME/desktop/worky" pdf_files = glob.glob("%s/*.pdf" % pdf_dir) for file in pdf_files: ## Identify File Name and Limit to Digits filename = os.path.basename(file) newname = filename[0:6] ## Run PDFX to identify and download links pdf = pdfx.PDFx(filename) url_list = pdf.get_references_as_dict() attachment_counter = (1) for x in url_list["url"]: if x[0:4] == "http": parsed_url = urllib.parse.quote(x, safe='://') print (parsed_url) wget.download(parsed_url, '/users/USERNAME/desktop/worky/(newname)_attach(attachment_counter).*') ##os.rename(r'/users/USERNAME/desktop/worky/(filename).*',r'/users/USERNAME/desktop/worky/(newname)_attach(attachment_counter).*') attachment_counter += 1 for x in url_list["pdf"]: print (parsed_url + "\n")```

2条回答

网友

1楼 · 编辑于 2024-09-27 17:47:39

此行为的原因在wget库中。在它内部，用urllib.parse.quote()（https://docs.python.org/3/library/urllib.parse.html#urllib.parse.quote）对URL进行编码

基本上，它用相应的%xx转义字符替换字符。您的URL已转义，但库不知道。当解析%20时，它将%视为需要替换的字符，因此结果是%2520和不同的URL-因此出现403错误

您可以先解码该URL，然后将其传递，但随后您将遇到此库的另一个问题，因为您的URL有参数filename*=，但库需要filename=

我建议您这样做：

# get the file
req = requests.get(parsed_url)

# parse your URL to get GET parameters
get_parameters = [x for x in parsed_url.split('?')[1].split('&')]

filename = ''
# find the get parameter with the name
for get_parameter in get_parameters:
    if "filename*=" in get_parameter:
        # split it to get the name
        filename = get_parameter.split('filename*=')[1]

# save the file
with open(<path> + filename, 'wb') as file:
    file.write(req.content)

我还建议删除该文件名中的utf-8''，因为我认为它实际上不是文件名的一部分。您也可以使用正则表达式获取文件名，但这对我来说更容易

网友

2楼 · 编辑于 2024-09-27 17:47:39

我更喜欢在试图在线抓取文本或文件时使用requests（https://requests.readthedocs.io/en/master/）。我用wget快速尝试了一下，得到了相同的错误（可能链接到wget使用的用户代理HTTP头）

wget和HTTP头问题：download image from url using python urllib but receiving HTTP Error 403: Forbidden
HTTP头文件：https://developer.mozilla.org/en-US/docs/Web/HTTP/Headers/User-Agent

使用requests的好处是，它允许您以您想要的方式（https://requests.readthedocs.io/en/master/user/quickstart/#custom-headers）修改HTTP头

import requests

r = requests.get("https://s3.amazonaws.com/os_uploads/2169504_DFA%20train%20pass.PNG?AWSAccessKeyId=AKIAIPCTK7BDMEW7SP4Q&Expires=1909634500&Signature=aQlQXVR8UuYLtkzjvcKJ5tiVrZQ=&response-content-disposition=attachment;%20filename*=utf-8''DFA%2520train%2520pass.PNG")

with open("myfile.png", "wb") as file:
    file.write(r.content)

我不确定我是否理解您正在尝试做什么，但也许您希望使用格式化字符串来构建URL（https://docs.python.org/3/library/stdtypes.html?highlight=format#str.format）

在您的例子（if x[0:4] == "http":）中，检查字符串索引可能很好，但我认为您应该检查pythonre包，以使用正则表达式捕获文档（https://docs.python.org/3/library/re.html）中所需的元素

import re

regex = re.compile(r"^http://")

if re.match(regex, mydocument):
    <do something>

相关问题更多 >

编程相关推荐

热门问题

热门文章