如何从动态网页下载并保存所有PDF文件？

link = 'https://www.bankia.es/estaticos/documentosPRIIPS/json/jsonSimple.txt' base = 'https://www.bankia.es/estaticos/documentosPRIIPS/{}' dirf = os.environ['USERPROFILE'] + "\Documents\TFM\PdfFolder" if not os.path.exists(dirf2):os.makedirs(dirf2) os.chdir(dirf2) res = requests.get(link,headers={"User-Agent":"Mozilla/5.0"}) for item in res.json(): if not 'nombre_de_fichero' in item: continue link = base.format(item['nombre_de_fichero']) filename_bankia = item['nombre_de_fichero'].split('.')[-2] + ".PDF" with open(filename_bankia, 'wb') as f: f.write(requests.get(link).content)

1条回答

网友

1楼 · 发布于 2024-09-30 01:34:09

必须使用适当的json参数发出post-http请求。一旦得到响应，就必须解析两个字段objectId和nombreFichero，以使用它们来构建指向pdf的正确链接。以下操作应该有效：

import os
import json
import requests

url = 'https://bancaonline.bankinter.com/publico/rs/documentacionPrix/list'
base = 'https://bancaonline.bankinter.com/publico/DocumentacionPrixGet?doc={}&nameDoc={}'
payload = {"cod_categoria": 2,"cod_familia": 3,"divisaDestino": None,"vencimiento": None,"edadActuarial": None}

dirf = os.environ['USERPROFILE'] + "\Desktop\PdfFolder"
if not os.path.exists(dirf):os.makedirs(dirf)
os.chdir(dirf)

r = requests.post(url,json=payload)
for item in r.json():
    objectId = item['objectId']
    nombreFichero = item['nombreFichero'].replace(" ","_")
    filename = nombreFichero.split('.')[-2] + ".PDF"
    link = base.format(objectId,nombreFichero)
    with open(filename, 'wb') as f:
        f.write(requests.get(link).content)

在执行上述脚本后，请稍等它工作，因为站点速度非常慢。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章