恢复失真的中文格式并识别原始中文编码

1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise 1492: Conquest â–’ï¿½Â¢Ã¢â–’ï¿½ï¿½Â¬Ã¢â–’ï¿½â–’Â¹of Paradise 1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise

1条回答

网友

1楼 · 发布于 2024-07-02 11:22:11

给定你显示的解码传入字节的代码。。。你知道吗

很可能尝试从utf-8解码字节会失败，因为有太多的字节组合在utf-8中无效。因此，您的Unicode字符串可能来自解码latin1。你知道吗

也有许多字节不是有效的拉丁字符，但是在python2.7中的一个快速测试表明它仍然可以解码它们。这意味着输入字节被保留，但是print无法显示它们。你知道吗

for x in range(256):
    if chr(x).decode('latin1').encode('latin1') != chr(x):
        print x

如果将正确的代码页放入decode部分，则以下内容应该能够还原它们并解码到正确的代码页：

st1 = st.encode('latin1').decode('gb18030')
print st1