下载不带.pdf u的pdf文件

from urllib import request from bs4 import BeautifulSoup import re import os import urllib url="http://www.smv.gob.pe/frm_hechosdeImportanciaDia?data=38C2EC33FA106691BB5B5039DACFDF50795D8EC3AF" response = request.urlopen(url).read() soup= BeautifulSoup(response, "html.parser") links = soup.find_all('a', href=re.compile(r'(http://www.smv.gob.pe/ConsultasP8/documento.aspx?)')) print(links)

1条回答

网友

1楼 · 发布于 2024-10-02 12:38:50

这对我很有用：

import re

import requests
from bs4 import BeautifulSoup

url = "http://www.smv.gob.pe/frm_hechosdeImportanciaDia?data=38C2EC33FA106691BB5B5039DACFDF50795D8EC3AF"
response = requests.get(url).content
soup = BeautifulSoup(response, "html.parser")
links = soup.find_all('a', href=re.compile(r'(http://www.smv.gob.pe/ConsultasP8/documento.aspx?)'))
links = [l['href'] for l in links]
print(links)

唯一的区别是我使用requests是因为我已经习惯了，并且我为从BeautifulSoup返回的每个Tag使用href属性。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章