什么是unicode字符串？问题的回答

什么是unicode字符串？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

这个答案是关于Python 2的。在Python 3中，<code>str</code>是一个Unicode字符串。 Python的<code>str</code>类型是8位字符的集合。英文字母表可以用这8位字符表示，但符号如‘，♠，Ω和ℑ不能。 Unicode是处理各种字符的标准。每个符号都有一个码位（一个数字），这些码位可以使用各种编码方式进行编码（转换为字节序列）。 UTF-8就是这样一种编码。低码位使用单字节编码，高码位使用字节序列编码。 Python的<code>unicode</code>类型是代码点的集合。行<code>ustring = u'A unicode \u018e string \xf1'</code>创建一个包含20个字符的Unicode字符串。 当Python解释器显示<code>ustring</code>的值时，它将转义其中两个字符（Ǝ和ñ），因为它们不在标准的可打印范围内。 行<code>s = unistring.encode('utf-8')</code>使用UTF-8对Unicode字符串进行编码。这会将每个码位转换为适当的字节或字节序列。结果是一个字节集合，返回为<code>str</code>。<code>s</code>的大小是22个字节，因为其中两个字符有很高的码位，并且被编码为两个字节的序列，而不是一个字节。 当Python解释器显示值<code>s</code>时，它将转义不在可打印范围内的四个字节（<code>\xc6</code>、<code>\x8e</code>、<code>\xc3</code>和<code>\xb1</code>）。这两对字节不像以前那样被视为单个字符，因为<code>s</code>是<code>str</code>类型，而不是<code>unicode</code>。 行<code>t = unicode(s, 'utf-8')</code>与<code>encode()</code>相反。它通过查看<code>s</code>的字节并解析字节序列来重建原始代码点。结果是一个Unicode字符串。 对<code>codecs.open()</code>的调用指定<code>utf-8</code>作为编码，它告诉Python将文件（字节集合）的内容解释为使用UTF-8编码的Unicode字符串。

什么是unicode字符串？

1 个回答

相关Python问题