UTF8在将unicode密钥/值从CSV文件存储到di时“不一致”

dct (original): {'A\xc3\xb1o': '2001', 'Valor': 'Caf\xc3\xa9'} Año: 2001 Valor: Café {u'A\xf1o': u'2001', u'Valor': u'Caf\xe9'} dct (original): {'A\xc3\xb1o': '2002', 'Valor': 'Le\xc3\xb3n'} Año: 2002 Valor: León {u'A\xf1o': u'2002', u'Valor': u'Le\xf3n'}

>>> print "Año" Año # Yeey!! There's hope! >>> print {"Año": 2001} {'A\xc3\xb1o': 2001} # 2 chars --> Ascii, I think I get this part >>> print {u"Año": 2001} {u'A\xf1o': 2001} # What happened here? # Why am I seeing the 0x00F1 UTF-8 code # from the Latin-1 Supplement (wiki: # http://en.wikipedia.org/wiki/Latin-1_Supplement_(Unicode_block) # instead of an ñ?

1条回答

网友
1楼 · 发布于 2024-04-20 13:07:09

当您打印字符串本身时，它将使用它的str()表示“很好地”打印出来。当您打印字典时，它的内容是使用它们的repr()表示形式打印的，这种表示方式总是转义。字符串的内容在两种情况下都是相同的，只是Python显示它们的方式不同。第一种情况下，Año周围没有引号，第二种情况下，引号围绕'A\xc3\xb1o'打印，这是相同的原因。只是两种不同的显示格式。在
下面是一个更简单的例子，可能有助于说明这种情况：
^{1}$
有一个related bug report建议更改此行为，以便repr不会转义非ASCII字符。根据那个bug报告，这个更改是在Python3中进行的，所以您看到的工具可能使用的是Python3。在
单个工具也可以显示任何他们喜欢的东西。工具不必只调用str(someDict)并显示结果；如果需要，它可以“手动”调用dict的内容str，并从中构建自己的可显示版本。在

相关问题更多 >

编程相关推荐

热门问题

热门文章