对一个字符串进行多次编码（使用相同的编码格式）有什么危害吗？（在Python中）

网友

1楼 · 编辑于 2024-05-21 23:12:52

除非字符串是纯ascii，否则是的，它可能会造成伤害（如果是纯ascii，则不需要担心utf-8）：

>>> a
u'a \xd7 b'
>>> a.encode("utf-8")
'a \xc3\x97 b'
>>> a.encode("utf-8").encode("utf-8")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 2: ordinal not in range(128)

最好将字节序列和文本视为两种不同的东西。在python3中，它们是不同的：bytes对象有decode()方法，string（unicode）对象有encode()方法。在

网友

2楼 · 编辑于 2024-05-21 23:12:52

你不能多次编码，它不起作用。在

>>> s = u"ä".encode('latin1')
>>> s = s.encode('latin1')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)

看，你会得到“ascii编解码器不能解码”。字符串上的encode方法的作用是首先将字符串解码为Unicode，然后用给定的编码对其进行再次编码。它将用系统编码解码，默认情况下是ascii。在

这种行为是意外的，在python3中消失了，bytes没有encode方法，string没有decode方法。在

所以你不能对它进行多次编码，当然这是因为编码一个编码字符串没有任何意义。编码是从Unicode转换为二进制表示，您不能进一步编码二进制表示。在

网友

3楼 · 编辑于 2024-05-21 23:12:52

通常，您应该只对unicode对象调用encode，而只对string对象调用decode。在

encode将Unicode对象编码为给定的编码（存储为字符串）。decode将给定的编码解码回Unicode对象。在

2.x中的string.encode和{}的存在应该被视为一个历史文物。在

相关问题更多 >

编程相关推荐

热门问题

热门文章