>>> import unicodedata as ud
>>> d = u'Cle\u0301s'
>>> c = u'Cl\u00e9s'
>>> ud.normalize('NFC',c) # no change, already composed form
u'Cl\xe9s' # Note: escape codes display with a smaller form if possible.
>>> ud.normalize('NFC',d) # changes to composed form
u'Cl\xe9s'
>>> ud.normalize('NFD',c) # changes to decomposed form
u'Cle\u0301s'
>>> ud.normalize('NFD',d) # no change, already decomposed form
u'Cle\u0301s'
如果以该格式的字节字符串开始,则以下内容将首先转换为Unicode字符串:
>>> db = 'Cle\u0301s'
>>> cb = 'Cl\u00e9s'
>>> d = db.decode('unicode_escape')
>>> c = cb.decode('unicode_escape')
>>> d
u'Cle\u0301s'
>>> c
u'Cl\xe9s'
unicodedata.normalize
函数将Unicode字符串转换为完全组合或完全分解的形式。你知道吗如果以该格式的字节字符串开始,则以下内容将首先转换为Unicode字符串:
万分感谢@markransem和我一起调试,得到了我想要的东西!你知道吗
显然,这里的lower()和upper()对大多数人来说都不是一个好主意,但对我来说,这是可行的,因为我希望从两个不同的进程中得到或多或少相同的单词。你知道吗
相关问题 更多 >
编程相关推荐