如何在Python中拆分多语言行并获得Unicode十六进制值？

2条回答

网友

1楼 · 编辑于 2024-09-29 19:33:17

在Python2中，Unicode字符串常量需要以“u”字符开头，如：

print ((unicode(u"释","utf-8")).encode("utf-8"))
print ((unicode(u"א","utf-8")).encode("utf-8"))

在python3中，字符串常量默认为Unicode。在

网友

2楼 · 编辑于 2024-09-29 19:33:17

在Python 2中，需要打开指定如下编码的文件：

import codecs
f = codecs.open("myfile.txt","r",encoding="utf-8")

在Python3中，您只需将encoding选项添加到任何open（）调用中。在

这将保证文件被正确解码。请注意，这并不意味着您的print调用将正常工作，这取决于许多事情（请参见示例http://www.pycs.net/users/0000323/stories/14.html），这只是一个开始）；最好使用适当的调试器，或者输出到文件（将再次使用编解码器.打开() ). 在

要获得实际的代码点（即整数“value”），可以使用内置的ord（）：

^{pr2}$

如果你知道不同语言的范围，那就是你所需要的。有关范围，请参见this page或this page。在

否则，您可能需要使用unicodedata来查找资料，例如双向类别：

>>> unicodedata.bidirectional(u"£")
ET  # 'E'uropean 'T'erminator