Python-以奇怪的utf-16格式读取文本文件

网友

1楼 · 编辑于 2024-09-27 09:34:28

这确实只是@abarnert的建议，但我想把它作为一个答案发布，因为这是最简单的解决方案，也是我最终使用的解决方案：

    file = io.open(filename,'r',encoding='utf-16-le')
    data = np.loadtxt(file,skiprows=8)

这演示了如何使用io.open创建一个文件对象，使用文件碰巧具有的疯狂编码，然后将该文件对象传递给np.loadtxt（或np.genfromtxt）以便快速轻松地加载。

网友

2楼 · 编辑于 2024-09-27 09:34:28

在我看来是UTF-16。

>>> test_utf16 = '0\x00.\x000\x002\x000\x000\x001\x009\x007\x00'
>>> test_utf16.decode('utf-16')
u'0.0200197'

您可以直接使用Unicode字符串：

>>> float(test_utf16)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ValueError: null byte in argument for float()
>>> float(test_utf16.decode('utf-16'))
0.020019700000000001

或者把它们编码成不同的东西，如果你愿意的话：

>>> float(test_utf16.decode('utf-16').encode('ascii'))
0.020019700000000001

请注意，您需要在处理过程中尽早执行此操作。正如您的注释所指出的，split在utf-16编码表单上的行为将不正确。空格字符' '的utf-16表示是' \x00'，因此split删除空白，但保留空字节。

2.6及更高版本的io库可以为您处理这个问题，旧的codecs库也可以。io更好地处理换行，因此如果可用的话，最好是这样。

网友

3楼 · 编辑于 2024-09-27 09:34:28

我敢打赌这是一个UTF-16-LE文件，而你读它时，不管你的默认编码是什么。

在UTF-16中，每个字符占用两个字节。*如果您的字符都是ASCII，这意味着UTF-16编码看起来像ASCII编码，每个字符后面都有一个额外的“\x00”。

要解决这个问题，只需解码数据：

print line.decode('utf-16-le').split()

或者在文件级别使用io或编解码器模块执行相同的操作：

file = io.open('data.txt','r', encoding='utf-16-le')

*这有点过于简单化：每个BMP字符占用两个字节；每个非BMP字符都被转换成一个代理项对，两个代理项中的每一个占用两个字节。但你可能不在乎这些细节。

相关问题更多 >

编程相关推荐

热门问题

热门文章