字符串编码和解码可能来自拉丁1和utf8

2条回答

网友
1楼 · 编辑于 2024-10-01 13:39:32

如果试图将在latin1中无法表示的字符插入存储在该字符编码下的列中，则这些字符将被不可逆地替换为?-信息已丢失：您唯一的选择是在列存储在utf8中后重新插入/更新数据。在
然而，你问题中的一些数据没有什么意义。例如：
Stored:
EMMANUEL PE\xc3\u0192\xc2\u2018A GOMEZ PORTUGAL
您是要显示当前存储的字节还是字符？不管怎样，\u或{}转义码之一是没有意义的。在
您说原始数据被编码为latin1；在该字符集中，nin字符被编码为0xd1。您说您随后将数据转换为utf8，这会将该字符的编码更改为两字节序列0xc391（这解释了上面显示的存储的{}；但是，不清楚第二个字节0x91是如何变成代码段中的序列\u0192\xc2\u2018）。在
我怀疑数据实际上已经经过了一些进一步的转换，可能是在当前存储的数据和您用来查看这种存储的任何方式之间的转换。建议您首先确定数据库中存储的内容：
SELECT HEX(my_column) FROM my_table WHERE ...
一旦确定了这一点，您将能够更好地理解存储数据需要进行哪些转换（如果有的话），以及在存储和检索操作期间发生了哪些不需要的转换（如果有的话）。在
^{*在阅读了塔纳斯·佩特萨的答案后，我意识到他发现你似乎正确地解码了utf8-编码为latin1的字符串，使用utf8对结果字符进行编码，然后再次将这些字节解码为latin1。这确实会产生您所显示的字符序列，但仍然有必要了解实际存储的内容以及检索过程中转换的原因。}

网友
2楼 · 编辑于 2024-10-01 13:39:32

试试这个：
print str.encode('cp1252').decode('utf-8').encode('cp1252').decode('utf-8')
使用ipython的示例：
^{pr2}$
这是一个utf-8，编码错误。。在

相关问题更多 >

编程相关推荐

热门问题

热门文章