Python 3 utf-8编码似乎有问题？

网友

1楼 · 编辑于 2024-09-28 21:04:27

否，א的unicode代码点为0x5d0：

print("%x" % ord('א'))  
# '5d0'

当您将其编码为utf-8时，您将得到一种表示该特定代码点的可能方法。utf-16是另一种表示方法，它用2个字节表示每个码位。之所以使用前缀为\xff\xfe，是因为encode('utf-16')生成了一个字节顺序标记（BOM）。如果明确指定字节顺序，则不会生成：

^{pr2}$

网友

2楼 · 编辑于 2024-09-28 21:04:27

0x5d0根本不是编码；它只是一个数字。是的，希伯来语字母ALEF是U+05D0，但是UTF-8不是码位到字节的转录。相反，它在每个字节的msb中使用一组固定的位，并用码位值的可变位数填充lsb。在

0x5d0 = 101 1101 0000
      = 10111 010000

插入110xxxxx 10xxxxxx我们得到：

^{pr2}$

网友

3楼 · 编辑于 2024-09-28 21:04:27

二进制中的unicode codepoint of א is U+05D0，或{}。11位代码点UTF-8编码ABCDEFGHIJKis

110A BCDE  10FG HIJK
# i.e.
1101 0111  1001 0000 # binary
 d    7     9    0   # hex

或者，在Python表示法中，b'\xd7\x90'。在