为什么转换成utf8不起作用？

3条回答

网友

1楼 · 编辑于 2024-06-28 15:21:17

你把Unicode和UTF-8混淆了。Latin-1是Unicode的子集，但它不是UTF-8的子集。避免像瘟疫一样考虑单个代码单元。只使用代码点。不要考虑UTF-8。想想Unicode吧。这就是你困惑的地方。

演示程序的源代码

在Python中使用Unicode非常简单。尤其是在Python 3和wide build s中，这是我使用Python的唯一方法，但是如果您在坚持使用UTF-8时非常小心，那么您仍然可以在狭窄的构建下使用遗留的Python 2。

为此，请始终将源代码编码和输出编码正确地转换为UTF-8。现在不要再想UTF了，在Python程序中只使用UTF-8文本、逻辑代码点编号或符号字符名。

这是带有行号的源代码：

% cat -n /tmp/py
     1  #!/usr/bin/env python3.2
     2  # -*- coding: UTF-8 -*-
     3  
     4  from __future__ import unicode_literals
     5  from __future__ import print_function
     6  
     7  import sys
     8  import os
     9  import re
    10  
    11  if not (("PYTHONIOENCODING" in os.environ)
    12              and
    13          re.search("^utf-?8$", os.environ["PYTHONIOENCODING"], re.I)):
    14      sys.stderr.write(sys.argv[0] + ": Please set your PYTHONIOENCODING envariable to utf8\n")
    15      sys.exit(1)
    16  
    17  print('1a: el ni\xF1o')
    18  print('2a: el nin\u0303o')
    19  
    20  print('1a: el niño')
    21  print('2b: el niño')
    22  
    23  print('1c: el ni\N{LATIN SMALL LETTER N WITH TILDE}o')
    24  print('2c: el nin\N{COMBINING TILDE}o')

下面是使用\x{⋯}符号的非ASCII字符uniquoted的打印函数：

% grep -n ^print /tmp/py | uniquote -x
17:print('1a: el ni\xF1o')
18:print('2a: el nin\u0303o')
20:print('1b: el ni\x{F1}o')
21:print('2b: el nin\x{303}o')
23:print('1c: el ni\N{LATIN SMALL LETTER N WITH TILDE}o')
24:print('2c: el nin\N{COMBINING TILDE}o')

演示程序的示例运行

下面是该程序的一个运行示例，显示了三种不同的方式（a、b和c）：第一种是在源代码中设置为文本（这将受到StackOverflow的NFC转换的限制，因此不可信任！！！）第二组是分别带有数字Unicode代码点和符号Unicode字符名的两组，同样是uniquoted，这样您就可以看到实际情况：

% python /tmp/py
1a: el niño
2a: el niño
1b: el niño
2b: el niño
1c: el niño
2c: el niño

% python /tmp/py | uniquote -x
1a: el ni\x{F1}o
2a: el nin\x{303}o
1b: el ni\x{F1}o
2b: el nin\x{303}o
1c: el ni\x{F1}o
2c: el nin\x{303}o

% python /tmp/py | uniquote -v
1a: el ni\N{LATIN SMALL LETTER N WITH TILDE}o
2a: el nin\N{COMBINING TILDE}o
1b: el ni\N{LATIN SMALL LETTER N WITH TILDE}o
2b: el nin\N{COMBINING TILDE}o
1c: el ni\N{LATIN SMALL LETTER N WITH TILDE}o
2c: el nin\N{COMBINING TILDE}o

我真的不喜欢看二进制，但这里是二进制字节的样子：

% python /tmp/py | uniquote -b
1a: el ni\xC3\xB1o
2a: el nin\xCC\x83o
1b: el ni\xC3\xB1o
2b: el nin\xCC\x83o
1c: el ni\xC3\xB1o
2c: el nin\xCC\x83o

故事的寓意

即使使用UTF-8源代码，也应该只考虑和使用逻辑Unicode代码点编号（或符号命名字符），而不是作为UTF-8（或UTF-16）序列表示的基础的单个8位代码单元。很少需要代码单元而不是代码点，这会让您感到困惑。

如果你使用Python3的广泛构建，你的行为也会比那些选择的替代方案更可靠，但这是UTF-32的问题，而不是UTF-8的问题。如果你只是顺其自然，UTF-32和UTF-8都很容易使用。

网友
2楼 · 编辑于 2024-06-28 15:21:17

它是UTF-8中多字节序列的第一个字节，因此它本身是无效的。
实际上，它是4字节序列的第一个字节。
Bits Last code point Byte 1 Byte 2 Byte 3 Byte 4 Byte 5 Byte 6 21 U+1FFFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
有关详细信息，请参见here。

网友
3楼 · 编辑于 2024-06-28 15:21:17

UTF-8不是拉丁语-1的子集。UTF-8使用相同的单字节编码ASCII。对于所有其他代码点，都是多个字节。

简单地说，正如Python所说，xf1不是有效的UTF-8。”“意外的输入结束”表示此字节标记未提供的多字节序列的开始。

我建议你读一下UTF-8。

演示程序的源代码

演示程序的示例运行

故事的寓意

相关问题更多 >

编程相关推荐

热门问题

热门文章