read（）python后奇怪的字符串格式

2条回答

网友

1楼 · 编辑于 2024-09-30 02:20:36

文件用UTF-16编码。你知道吗

>>> open('/Desktop/test.csv', 'r', encoding='UTF-16').read(7)
'Y!BL- B'

或者，如果您仍在使用较旧的Python版本

>>> import codecs
>>> codecs.open('/Desktop/test.csv', 'r', encoding='UTF-16').read(7)
u'Y!BL- B'

还要注意的是，Python使用基于零的索引，就像大多数其他语言（C、Java、C#、JavaScript等）一样

>>> 'abcdefghijklmnopqrstuvwxyz'[1:15]
'bcdefghijklmno' # Omits the 'a', which is at index 0

网友

2楼 · 编辑于 2024-09-30 02:20:36

这没什么奇怪的，一切都好。Python使用\x00转义序列来表示不可打印的字符：

>>> '\x00'
'\x00'
>>> len('\x00')
1
>>> '\x65'
'e'

注意十六进制字符65是如何被打印成e；毕竟它是一个可打印的ASCII字母。你知道吗

您的数据可能被编码为与ASCII不同的格式；例如，尝试使用UTF-16对其进行解码。在我看来，第一个1字节就像UTF-16 BOM的第二个字节：

>>> import codecs
>>> codecs.BOM_UTF16
'\xff\xfe'