2024-09-28 05:34:57 发布
网友
我有一个包含以下行的文本文件:
Name; Country josué ségura;FR Dr Gérald KIERZEK⚡👨â€âš•ï¸;FR #contains emoji
我需要用UTF-8来解码这个文本,我没有找到python的解决方案。 我在互联网上找到了一个javascript解决方案,但我从不使用javascript,我需要一个python解决方案,它可以解码UTF-8中的所有文本(所有行)。 多谢各位
这是最初编码为UTF-8的文本,但已使用8位编码(可能是cp1252或其他一些Windows编码,可能是拉丁语-1)进行解码。这被称为mojibake
通过将其编码为拉丁语-1以获得字节,然后解码为UTF-8,可以对其进行正确解码
> s = '33;josué ségura;FR' >>> s.encode('latin').decode('utf-8') '33;josué ségura;FR'
这是最初编码为UTF-8的文本,但已使用8位编码(可能是cp1252或其他一些Windows编码,可能是拉丁语-1)进行解码。这被称为mojibake
通过将其编码为拉丁语-1以获得字节,然后解码为UTF-8,可以对其进行正确解码
相关问题 更多 >
编程相关推荐