有没有办法从HTML中提取字符串？

class OsuMaps: def generateFileName(self, num1=None): if not num1: print("Missing required argument: 'num1'") return dl = requests.get(f"https://bloodcat.com/osu/s/{num1.rstrip()}") # ..generate FinalName tree = fromstring(dl.content) FinalName = tree.xpath( "//a[contains(@href='beatmapsets?q=')]" ) return FinalName osu - OsuMaps() osu.generateFileName("653534") # ideal outcome - "653534 Panda Eyes - ILY"

1条回答

网友

1楼 · 发布于 2024-10-03 00:23:38

根据请求documentation，requests.get.content返回原始字节响应。您需要解析的是dl.text。你知道吗

@RomanPerekhrest也指出，给定的链接引用一个二进制文件，所以用lxml解析它是没有意义的。但是，您可以使用requests.head()方法获取文件名并提取所需的数据。你知道吗

尝试以下操作：

dl = requests.head(f"https://bloodcat.com/osu/s/{num1.rstrip()}") 
fname = dl.headers["Content-Disposition"].split('filename="')[-1].split('";')[0].replace("%20", " ")

# fname == '653534 Panda Eyes - ILY.osz'

相关问题更多 >

编程相关推荐

热门问题

热门文章