如何将unicode类型与python中的字符串进行比较？

#json coming from remote server: #response object looks like: {"number1":"first", "number2":"second"} data = json.loads(response) k = data.keys() I need something like: myList = [item for item in k if item=="number1"] #### I thought this would work: myList = [item for item in k if item.encode('utf-8')=="number1"]

3条回答

网友

1楼 · 编辑于 2024-05-17 10:18:46

必须在错误的数据集上循环；只要直接在加载了JSON的字典上循环，就不需要首先调用.keys()：

data = json.loads(response)
myList = [item for item in data if item == "number1"]

您可能需要使用u"number1"来避免Unicode和字节字符串之间的隐式转换：

data = json.loads(response)
myList = [item for item in data if item == u"number1"]

两个版本都工作正常：

>>> import json
>>> data = json.loads('{"number1":"first", "number2":"second"}')
>>> [item for item in data if item == "number1"]
[u'number1']
>>> [item for item in data if item == u"number1"]
[u'number1']

注意，在第一个示例中，us是而不是一个UTF-8字符串；它是unicode数据，json库已经为您解码了它。另一方面，UTF-8字符串是一个编码字节序列。您可能需要阅读Unicode和Python以了解其区别：

The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)作者Joel Spolsky
Python Unicode HOWTO
Pragmatic Unicode作者：Ned Batchelder

在Python 2上，您对测试返回True的期望是正确的，但您做了其他错误的事情：

>>> us = u'MyString'
>>> us
u'MyString'
>>> type(us)
<type 'unicode'>
>>> us.encode('utf8') == 'MyString'
True
>>> type(us.encode('utf8'))
<type 'str'>

不需要将字符串编码为UTF-8进行比较；请改用unicode文本：

myComp = [elem for elem in json_data if elem == u"MyString"]

网友

2楼 · 编辑于 2024-05-17 10:18:46

您正在尝试将字节字符串（'MyString'）与Unicode代码点字符串（u'MyString'）进行比较。这是一个“苹果和橘子”的比较。不幸的是，Python2在某些情况下假装这种比较是有效的，而不是总是返回False：

>>> u'MyString' == 'MyString'  # in my opinion should be False
True

作为设计师/开发人员，您可以决定应该进行什么样的正确比较。以下是一种可能的方法：

a = u'MyString'
b = 'MyString'
a.encode('UTF-8') == b  # True

我建议使用上述方法而不是a == b.decode('UTF-8')，因为所有u''样式的字符串都可以用UTF-8编码成字节，除非在某些奇怪的情况下，但并非所有字节字符串都可以用这种方式解码为Unicode。

但是，如果您选择在比较之前对Unicode字符串进行UTF-8编码，那么在Windows系统上这样做会失败：u'Em dashes\u2014are cool'.encode('UTF-8') == 'Em dashes\x97are cool'。但如果你.encode('Windows-1252')取而代之，它会成功的。这就是为什么它是苹果和橘子的比较。

网友

3楼 · 编辑于 2024-05-17 10:18:46

我假设您使用的是Python 3。us.encode('utf-8') == "MyString"返回False，因为str.encode()函数是returning a bytes object：

In [2]: us.encode('utf-8')
Out[2]: b'MyString'

在Python 3中，字符串是already Unicode，因此u'MyString'是多余的。

相关问题更多 >

编程相关推荐

热门问题

热门文章