我们如何解码python中的特殊字符表情符号？

2024-09-28 05:34:57 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个包含以下行的文本文件：

        Name; Country
       josuÃ© sÃ©gura;FR
       Dr GÃ©rald KIERZEKâš¡ðŸ‘¨â€âš•ï¸;FR    #contains emoji

我需要用UTF-8来解码这个文本，我没有找到python的解决方案。我在互联网上找到了一个javascript解决方案，但我从不使用javascript，我需要一个python解决方案，它可以解码UTF-8中的所有文本（所有行）。多谢各位

Tags： name 文本 fr javascript 解决方案解码 country utf

1条回答

网友

1楼 · 发布于 2024-09-28 05:34:57

这是最初编码为UTF-8的文本，但已使用8位编码（可能是cp1252或其他一些Windows编码，可能是拉丁语-1）进行解码。这被称为mojibake

通过将其编码为拉丁语-1以获得字节，然后解码为UTF-8，可以对其进行正确解码

> s = '33;josuÃ© sÃ©gura;FR'
>>> s.encode('latin').decode('utf-8')
'33;josué ségura;FR'