在使用Wget时，如何正确解析web链接以避免403错误？问题的回答

在使用Wget时，如何正确解析web链接以避免403错误？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我昨天刚开始学习python，而且基本上没有编码技能。我正在尝试编写一个python脚本来处理PDF文件夹。每个PDF包含至少1个，可能多达15个或更多的补充文档的web链接。我想我已经有了一个很好的开始，但是在尝试使用wget函数时，出现了一致的“HTTP错误403:Forbidden”错误。我相信我只是没有正确解析web链接。我认为主要的问题来了，因为网络链接大多是“s3.amazonaws.com”的超长链接 供参考： 直接从PDF复制的链接（下载作品）：<a href="https://s3.amazonaws.com/os_uploads/2169504_DFA%20train%20pass.PNG?AWSAccessKeyId=AKIAIPCTK7BDMEW7SP4Q&Expires=1909634500&Signature=aQlQXVR8UuYLtkzjvcKJ5tiVrZQ=&response-content-disposition=attachment;%20filename*=utf-8%27%27DFA%2520train%2520pass.PNG" rel="nofollow noreferrer">https://s3.amazonaws.com/os_uploads/2169504_DFA%20train%20pass.PNG?AWSAccessKeyId=AKIAIPCTK7BDMEW7SP4Q&Expires=1909634500&Signature=aQlQXVR8UuYLtkzjvcKJ5tiVrZQ=&response-content-disposition=attachment;%20filename*=utf-8''DFA%2520train%2520pass.PNG</a> 在我的代码中尝试解析后显示的链接（不起作用，尝试下载时给出“未知url类型”）：https%3A//s3.amazonaws.com/os_uploads/2169504_DFA%2520train%2520pass.PNG%3FAWSAccessKeyId%3DAKIAIPCTK7BDMEW7SP4Q%26Expires%3D1909634500%26Signature%3daqqxvr8uuuyltkzvckvckj5tivrzq%253D%26响应内容处理%3detaachment%253B%2520filename%252A%253Dutf-8%2527%2527DFA%520train%252520pass.PNG 另外，如果人们想对我是如何以一种愚蠢的方式做这件事进行权衡的话。每个PDF以6位数字的字符串开始，下载补充文档后，我希望自动保存并将其命名为XXXXXX _attachY.*其中X是数字的标识字符串，Y仅为每个附件增加。我还没有让我的代码足够工作来测试它，但我相当肯定我也没有正确的代码 救命啊 <pre><code>#!/usr/bin/env python3 import os import glob import pdfx import wget import urllib.parse ## Accessing and Creating Six Digit File Code pdf_dir = "/users/USERNAME/desktop/worky" pdf_files = glob.glob("%s/*.pdf" % pdf_dir) for file in pdf_files: ## Identify File Name and Limit to Digits filename = os.path.basename(file) newname = filename[0:6] ## Run PDFX to identify and download links pdf = pdfx.PDFx(filename) url_list = pdf.get_references_as_dict() attachment_counter = (1) for x in url_list["url"]: if x[0:4] == "http": parsed_url = urllib.parse.quote(x, safe='://') print (parsed_url) wget.download(parsed_url, '/users/USERNAME/desktop/worky/(newname)_attach(attachment_counter).*') ##os.rename(r'/users/USERNAME/desktop/worky/(filename).*',r'/users/USERNAME/desktop/worky/(newname)_attach(attachment_counter).*') attachment_counter += 1 for x in url_list["pdf"]: print (parsed_url + "\n")``` </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

在使用Wget时，如何正确解析web链接以避免403错误？

1 个回答

相关Python问题