如何在Python中比较unicode和string？

网友

1楼 · 编辑于 2024-10-03 11:13:33

可以将字节字符串转换为Unicode，但如果它包含任何非ASCII字符，则必须指定编码。在

if y.decode('iso-8859-1') == x:
    print(u'{0!r} converted to Unicode == {1}".format(y, x))

对于给定的示例，这是不正确的；但可能y使用了不同的编码。在

从理论上讲，您可以采用任何一种方式进行转换，但通常情况下，在内部使用所有Unicode，并将其他编码转换为Unicode以便在您的代码中使用（而不是相反）。在

网友

2楼 · 编辑于 2024-10-03 11:13:33

你需要知道字节串的编码。它看起来像windows-1252：

x = u'Ko\u0161ick\xfd'
y = 'Ko\x9aick\xfd'

print x == y.decode('windows-1252')
print x.encode('windows-1252') == y

输出：

^{pr2}$

最佳实践是在输入到程序时将文本转换为Unicode，用Unicode进行所有处理，并将其转换回编码字节以持久存储，在套接字上传输等

网友

3楼 · 编辑于 2024-10-03 11:13:33

好吧，utf-8现在是交换和Linux世界中事实上的标准，但是还有很多其他编码。在

常见的例子有latin1、latin9（与欧元符号相同）和cp1252（它们的windows变体）。在

在您的情况下：

>>> x.encode('cp1252')
'Ko\x9aick\xfd'

因此y字符串似乎是cp1252编码的。在