Beatiful Soup+Python的编码问题

2024-10-02 02:40:58 发布

男 | 程序猿一只，喜欢编程写python代码。

我一直在阅读docs以获得漂亮的Soup编码，并尝试使用特殊字符来解析我的html。但是那里的用例与我的不匹配

html Kimi Räikkönen在作为Kimi RÃ¤ikkÃ¶nen刮取后返回，我的应用程序无法处理这个。文档指导如何在实际标记中包含unicode（我的没有）时转换内容，即Sacr\xc3\xa9 bleu!到Sacré bleu!

奇怪的是，当我输入soup.original_encoding时，我总是得到None，即使是正常的内容

我已经尝试了所有的例子，从文件和其他类似的问题在这里，但没有工作到目前为止。我正在使用beatifulsoup作为刮刀和解析器

我很感激你给我的建议

Tags：文档应用程序 docs 内容编码 html 用例指导

1条回答

网友

1楼 · 发布于 2024-10-02 02:40:58

这不是一个漂亮的问题，而是一个与requests有关的问题

page = requests.get("https://www.formula1.com/en/drivers/kimi-raikkonen.html")

这是我的刮板里的第一行，它没有返回正确的编码。此解决方案可能被认为是黑客攻击，但我只是添加了以下内容来解决此问题：

page.encoding = 'utf-8'