在使用Wget时，如何正确解析web链接以避免403错误？问题的回答

在使用Wget时，如何正确解析web链接以避免403错误？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我昨天刚开始学习python，而且基本上没有编码技能。我正在尝试编写一个python脚本来处理PDF文件夹。每个PDF包含至少1个，可能多达15个或更多的补充文档的web链接。我想我已经有了一个很好的开始，但是在尝试使用wget函数时，出现了一致的“HTTP错误403:Forbidden”错误。我相信我只是没有正确解析web链接。我认为主要的问题来了，因为网络链接大多是“s3.amazonaws.com”的超长链接 供参考： 直接从PDF复制的链接（下载作品）：<a href="https://s3.amazonaws.com/os_uploads/2169504_DFA%20train%20pass.PNG?AWSAccessKeyId=AKIAIPCTK7BDMEW7SP4Q&Expires=1909634500&Signature=aQlQXVR8UuYLtkzjvcKJ5tiVrZQ=&response-content-disposition=attachment;%20filename*=utf-8%27%27DFA%2520train%2520pass.PNG" rel="nofollow noreferrer">https://s3.amazonaws.com/os_uploads/2169504_DFA%20train%20pass.PNG?AWSAccessKeyId=AKIAIPCTK7BDMEW7SP4Q&Expires=1909634500&Signature=aQlQXVR8UuYLtkzjvcKJ5tiVrZQ=&response-content-disposition=attachment;%20filename*=utf-8''DFA%2520train%2520pass.PNG</a> 在我的代码中尝试解析后显示的链接（不起作用，尝试下载时给出“未知url类型”）：https%3A//s3.amazonaws.com/os_uploads/2169504_DFA%2520train%2520pass.PNG%3FAWSAccessKeyId%3DAKIAIPCTK7BDMEW7SP4Q%26Expires%3D1909634500%26Signature%3daqqxvr8uuuyltkzvckvckj5tivrzq%253D%26响应内容处理%3detaachment%253B%2520filename%252A%253Dutf-8%2527%2527DFA%520train%252520pass.PNG 另外，如果人们想对我是如何以一种愚蠢的方式做这件事进行权衡的话。每个PDF以6位数字的字符串开始，下载补充文档后，我希望自动保存并将其命名为XXXXXX _attachY.*其中X是数字的标识字符串，Y仅为每个附件增加。我还没有让我的代码足够工作来测试它，但我相当肯定我也没有正确的代码 救命啊 <pre><code>#!/usr/bin/env python3 import os import glob import pdfx import wget import urllib.parse ## Accessing and Creating Six Digit File Code pdf_dir = "/users/USERNAME/desktop/worky" pdf_files = glob.glob("%s/*.pdf" % pdf_dir) for file in pdf_files: ## Identify File Name and Limit to Digits filename = os.path.basename(file) newname = filename[0:6] ## Run PDFX to identify and download links pdf = pdfx.PDFx(filename) url_list = pdf.get_references_as_dict() attachment_counter = (1) for x in url_list["url"]: if x[0:4] == "http": parsed_url = urllib.parse.quote(x, safe='://') print (parsed_url) wget.download(parsed_url, '/users/USERNAME/desktop/worky/(newname)_attach(attachment_counter).*') ##os.rename(r'/users/USERNAME/desktop/worky/(filename).*',r'/users/USERNAME/desktop/worky/(newname)_attach(attachment_counter).*') attachment_counter += 1 for x in url_list["pdf"]: print (parsed_url + "\n")``` </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

我更喜欢在试图在线抓取文本或文件时使用<code>requests</code>（<a href="https://requests.readthedocs.io/en/master/" rel="nofollow noreferrer">https://requests.readthedocs.io/en/master/</a>）。我用<code>wget</code>快速尝试了一下，得到了相同的错误（可能链接到<code>wget</code>使用的用户代理HTTP头） <ul> <li><code>wget</code>和HTTP头问题：<a href="https://stackoverflow.com/questions/34692009/download-image-from-url-using-python-urllib-but-receiving-http-error-403-forbid">download image from url using python urllib but receiving HTTP Error 403: Forbidden</a></li> <li>HTTP头文件：<a href="https://developer.mozilla.org/en-US/docs/Web/HTTP/Headers/User-Agent" rel="nofollow noreferrer">https://developer.mozilla.org/en-US/docs/Web/HTTP/Headers/User-Agent</a></li> </ul> 使用<code>requests</code>的好处是，它允许您以您想要的方式（<a href="https://requests.readthedocs.io/en/master/user/quickstart/#custom-headers" rel="nofollow noreferrer">https://requests.readthedocs.io/en/master/user/quickstart/#custom-headers</a>）修改HTTP头 <pre class="lang-py prettyprint-override"><code>import requests r = requests.get("https://s3.amazonaws.com/os_uploads/2169504_DFA%20train%20pass.PNG?AWSAccessKeyId=AKIAIPCTK7BDMEW7SP4Q&Expires=1909634500&Signature=aQlQXVR8UuYLtkzjvcKJ5tiVrZQ=&response-content-disposition=attachment;%20filename*=utf-8''DFA%2520train%2520pass.PNG") with open("myfile.png", "wb") as file: file.write(r.content) </code></pre> 我不确定我是否理解您正在尝试做什么，但也许您希望使用格式化字符串来构建URL（<a href="https://docs.python.org/3/library/stdtypes.html?highlight=format#str.format" rel="nofollow noreferrer">https://docs.python.org/3/library/stdtypes.html?highlight=format#str.format</a>） 在您的例子（<code>if x[0:4] == "http":</code>）中，检查字符串索引可能很好，但我认为您应该检查python<code>re</code>包，以使用正则表达式捕获文档（<a href="https://docs.python.org/3/library/re.html" rel="nofollow noreferrer">https://docs.python.org/3/library/re.html</a>）中所需的元素 <pre class="lang-py prettyprint-override"><code>import re regex = re.compile(r"^http://") if re.match(regex, mydocument): <do something> </code></pre>

在使用Wget时，如何正确解析web链接以避免403错误？

1 个回答

相关Python问题