我一直在阅读docs以获得漂亮的Soup编码,并尝试使用特殊字符来解析我的html。但是那里的用例与我的不匹配
html <p>Kimi Räikkönen</p>
在作为Kimi Räikkönen
刮取后返回,我的应用程序无法处理这个。文档指导如何在实际标记中包含unicode(我的没有)时转换内容,即<p>Sacr\xc3\xa9 bleu!</p>
到<p>Sacré bleu!</p>
奇怪的是,当我输入soup.original_encoding
时,我总是得到None
,即使是正常的内容
我已经尝试了所有的例子,从文件和其他类似的问题在这里,但没有工作到目前为止。我正在使用beatifulsoup作为刮刀和解析器
我很感激你给我的建议
这不是一个漂亮的问题,而是一个与
requests
有关的问题这是我的刮板里的第一行,它没有返回正确的编码。此解决方案可能被认为是黑客攻击,但我只是添加了以下内容来解决此问题:
相关问题 更多 >
编程相关推荐