恢复失真的中文格式并识别原始中文编码

2024-07-02 11:22:11 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在处理一个阅读过中文维基百科内容的文件,显然它已经被转换成了UTF-8 但不正确。你知道吗

import re,urllib
st=u'1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise'
st1= urllib.unquote(st).encode('UTF-8') 
st2= urllib.unquote(st) 
print st
print st1
print st2

输出为

1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise
1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise
1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise

编辑(找到额外信息)
我发现原始格式(不管是什么格式)经过了以下转换过程

  line[1]=urllib.quote(line[1])
  try:
      st=urllib.unquote(line[1]).decode("utf-8")
  except UnicodeDecodeError:
      st=urllib.unquote(line[1]).decode("latin1")

我不知道原始编码(可能是GBK或GB18030),所以我不知道如何恢复正确的文本。这个可以恢复吗?你知道吗


Tags: 文件of内容格式lineurllibutfst
1条回答
网友
1楼 · 发布于 2024-07-02 11:22:11

给定你显示的解码传入字节的代码。。。你知道吗

很可能尝试从utf-8解码字节会失败,因为有太多的字节组合在utf-8中无效。因此,您的Unicode字符串可能来自解码latin1。你知道吗

也有许多字节不是有效的拉丁字符,但是在python2.7中的一个快速测试表明它仍然可以解码它们。这意味着输入字节被保留,但是print无法显示它们。你知道吗

for x in range(256):
    if chr(x).decode('latin1').encode('latin1') != chr(x):
        print x

如果将正确的代码页放入decode部分,则以下内容应该能够还原它们并解码到正确的代码页:

st1 = st.encode('latin1').decode('gb18030')
print st1

相关问题 更多 >