Beatiful Soup+Python的编码问题

2024-10-02 02:40:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我一直在阅读docs以获得漂亮的Soup编码,并尝试使用特殊字符来解析我的html。但是那里的用例与我的不匹配

html <p>Kimi Räikkönen</p>在作为Kimi Räikkönen刮取后返回,我的应用程序无法处理这个。文档指导如何在实际标记中包含unicode(我的没有)时转换内容,即<p>Sacr\xc3\xa9 bleu!</p><p>Sacré bleu!</p>

奇怪的是,当我输入soup.original_encoding时,我总是得到None,即使是正常的内容

我已经尝试了所有的例子,从文件和其他类似的问题在这里,但没有工作到目前为止。我正在使用beatifulsoup作为刮刀和解析器

我很感激你给我的建议


Tags: 文档应用程序docs内容编码html用例指导
1条回答
网友
1楼 · 发布于 2024-10-02 02:40:58

这不是一个漂亮的问题,而是一个与requests有关的问题

page = requests.get("https://www.formula1.com/en/drivers/kimi-raikkonen.html")

这是我的刮板里的第一行,它没有返回正确的编码。此解决方案可能被认为是黑客攻击,但我只是添加了以下内容来解决此问题:

page.encoding = 'utf-8'

相关问题 更多 >

    热门问题