如何使用Python字符串使相同的代码在2.6、2.7、3.x中工作

text = get_data() phrases = [ "Soggarth Eogham O'Growney ,克尔・德怀尔", "capitis #3 病态上升涨大的繁殖性勃现", "IsoldeIsult、第一任威尔士亲王" ] for item in phrases: if item not in text: **# 3.3 ok. 2.7 UnicodeDecodeError** print ("Expected phrase '" + item + "' not found")

1条回答

网友

1楼 · 发布于 2024-06-28 14:52:23

似乎get_data()将返回Unicode字符串。出现错误的原因是将Unicode字符串与8位字符串串联，强制转换（默认情况下，转换将使用ASCII编解码器完成），并且由于数据包含非ASCII字符，因此转换失败。你知道吗

使上述代码正常工作的最佳方法是确保所有字符串都是Unicode，方法是在它们前面加上u“”：

phrases = [ u"Soggarth Eogham O'Growney ,克尔・德怀尔", 
            u"capitis #3 病态上升涨大的繁殖性勃现", 
            u"IsoldeIsult、第一任威尔士亲王" ]

但是，这只适用于Python2.x和Python3.3。如果您需要使用python3.2或3.1，那么您需要有一个方法，在python2下将其转换为Unicode，但在python3下什么都不做（因为它已经是Unicode了）。你知道吗

这种函数通常称为u()，您可以这样定义它：

import sys
if sys.version < '3':
    import codecs
    def u(x):
        return codecs.unicode_escape_decode(x)[0]
else:
    def u(x):
        return x

相关问题更多 >

编程相关推荐

热门问题

热门文章