如何在python中捕获来自不同语言的所有字母？

1条回答

网友

1楼 · 发布于 2024-10-02 12:32:28

你已经有了UTF-8编码的数据。在bytestring中没有要转义的字符串字符。您看到的是一个字符串的repr()输出，其中不可打印的ASCII字符显示为转义序列，因为这使得值可以以ASCII安全的方式轻松地复制和传递。您看到的\xc3是一个字节，而不是单独的字符：

>>> 'Erd\xC3\xA4pfel'
'Erd\xc3\xa4pfel'
>>> 'Erd\xC3\xA4pfel'[3]
'\xc3'
>>> 'Erd\xC3\xA4pfel'[4]
'\xa4'
>>> print 'Erd\xC3\xA4pfel'
Erdäpfel

必须使用原始字符串文本或双反斜杠才能实际获得unicode-escape可以处理的转义序列：

^{pr2}$

请注意，该字符串中有一个单独的\反斜杠字符（回显为\\，再次转义为）。在

在解释实际的转义序列之后，他unicode-escape将数据解码为拉丁语1，因此最终得到一个Unicode字符串，其中包含字符U+00C3 LATIN CAPITAL LETTER A WITH TILDE。将其编码回拉丁语1字节会再次给您\xC3字节，而您又回到了UTF-8字节。然后解码为UTF-8可以正常工作。在

但是第二次尝试将U+00C3拉丁文大写字母A与颚化符代码点编码为UTF-8，这种编码为字节序列\xc3\x83。将这些字节打印到UTF-8终端将显示Ã字符。另一个字节\xA4变成了U+00A4 CURRENCY SIGN，其中的UTF-8字节序列是\xc2\xa4，打印为¤。在

这里完全不需要解码为unicode-escape。只需将数据保持原样即可。或者，也许，解码为UTF-8以获得unicode对象：

^{3}$
如果您的实际数据（而不是您所做的测试）包含编码UTTF-8的\xhh转义序列，那么不要使用unicode-escape来解码这些序列。使用string-escape得到一个包含UTF-8数据的字节字符串（然后根据需要将其解码为Unicode）：
>>> 'Erd\\xc3\\xa4pfel' 'Erd\\xc3\\xa4pfel' >>> 'Erd\\xc3\\xa4pfel'.decode('string-escape') 'Erd\xc3\xa4pfel' >>> 'Erd\\xc3\\xa4pfel'.decode('string-escape').decode('utf8') u'Erd\xe4pfel' >>> print 'Erd\\xc3\\xa4pfel'.decode('string-escape').decode('utf8') Erdäpfel

相关问题更多 >

编程相关推荐

热门问题

热门文章