python3中的固定长度编码

1条回答

网友

1楼 · 发布于 2024-10-02 10:24:58

UTF-8是一种编码，它总是使用可变的字节数；字节数取决于输入文本的unicode码位。在

如果您需要能够处理Unicode的固定长度编码，请使用UTF-32（UTF-16仍然使用每个码位2或4个字节）。在

请注意，UTF-16和UTF-32编码都包含一个Byte Order Mark代码单元；一个初始的U+FEFF ZERO WIDTH NO-BREAK SPACE码位，它让解码器知道字节是以小端还是大端顺序产生的。对于UTF-32，这个代码点始终是4个字节，因此输出的长度将是4+（4*个字符计数）。在

通过将-le或-be添加到编解码器中，可以按照特定的字节顺序进行编码，在这种情况下，BOM被省略：

>>> 'Hello world'.encode('utf-32')
b'\xff\xfe\x00\x00H\x00\x00\x00e\x00\x00\x00l\x00\x00\x00l\x00\x00\x00o\x00\x00\x00 \x00\x00\x00w\x00\x00\x00o\x00\x00\x00r\x00\x00\x00l\x00\x00\x00d\x00\x00\x00'
>>> 'Hello world'.encode('utf-32-le')
b'H\x00\x00\x00e\x00\x00\x00l\x00\x00\x00l\x00\x00\x00o\x00\x00\x00 \x00\x00\x00w\x00\x00\x00o\x00\x00\x00r\x00\x00\x00l\x00\x00\x00d\x00\x00\x00'
>>> 'Hello world'.encode('utf-32-be')
b'\x00\x00\x00H\x00\x00\x00e\x00\x00\x00l\x00\x00\x00l\x00\x00\x00o\x00\x00\x00 \x00\x00\x00w\x00\x00\x00o\x00\x00\x00r\x00\x00\x00l\x00\x00\x00d'

相关问题更多 >

编程相关推荐

热门问题

热门文章

python3中的固定长度编码

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >