我试图下载并保存在一个文件夹中的所有PDF包含在一些网站与动态元素,即:https://www.bankinter.com/banca/nav/documentos-datos-fundamentales
此url中的每个PDF都有类似的href。这里有两个: “https://bancaonline.bankinter.com/publico/DocumentacionPrixGet?doc=workspace://SpacesStore/fb029023-dd29-47d5-8927-31021d834757;1.0&nameDoc=ISIN_ES0213679FW7_41-Bonos_EstructuradosGarantizad_19.16_es.pdf”
这是我为另一个网站所做的工作,此代码按预期工作:
link = 'https://www.bankia.es/estaticos/documentosPRIIPS/json/jsonSimple.txt'
base = 'https://www.bankia.es/estaticos/documentosPRIIPS/{}'
dirf = os.environ['USERPROFILE'] + "\Documents\TFM\PdfFolder"
if not os.path.exists(dirf2):os.makedirs(dirf2)
os.chdir(dirf2)
res = requests.get(link,headers={"User-Agent":"Mozilla/5.0"})
for item in res.json():
if not 'nombre_de_fichero' in item: continue
link = base.format(item['nombre_de_fichero'])
filename_bankia = item['nombre_de_fichero'].split('.')[-2] + ".PDF"
with open(filename_bankia, 'wb') as f:
f.write(requests.get(link).content)
必须使用适当的json参数发出post-http请求。一旦得到响应,就必须解析两个字段
objectId
和nombreFichero
,以使用它们来构建指向pdf的正确链接。以下操作应该有效:在执行上述脚本后,请稍等它工作,因为站点速度非常慢。你知道吗
相关问题 更多 >
编程相关推荐