unicode Python字符串中的字节

>>> repr(a) "u'\\u0420\\u0443\\u0441\\u0441\\u043a\\u0438\\u0439 \\xd0\\xb5\\xd0\\xba'" >>> eval(repr(a)[1:]) '\\u0420\\u0443\\u0441\\u0441\\u043a\\u0438\\u0439 \xd0\xb5\xd0\xba' >>> s = eval(repr(a)[1:]).decode('utf8') >>> s u'\\u0420\\u0443\\u0441\\u0441\\u043a\\u0438\\u0439 \u0435\u043a' # Almost there, the bytes are proper now but the former real-unicode characters # are now escaped with \u's; need to un-escape them. >>> import re >>> re.sub(u'\\\\u([a-f\\d]+)', lambda x : unichr(int(x.group(1), 16)), s) u'\u0420\u0443\u0441\u0441\u043a\u0438\u0439 \u0435\u043a' # Success!

3条回答

网友

1楼 · 编辑于 2024-09-29 19:16:40

问题是字符串实际上不是用特定编码编码的。示例字符串：

a = u'\u0420\u0443\u0441\u0441\u043a\u0438\u0439 \xd0\xb5\xd0\xba'

将python的unicode字符串的内部表示与utf-8编码文本混合。如果我们只考虑“特殊”字符：

>>> orig = u'\u0435\u043a'
>>> bytes = u'\xd0\xb5\xd0\xba'
>>> print orig
ек
>>> print bytes
ÐµÐº

但是你说，bytes是utf-8编码的：

>>> print bytes.encode('utf-8')
ÐµÐº
>>> print bytes.encode('utf-8').decode('utf-8')
ÐµÐº

错了！但是呢：

>>> bytes = '\xd0\xb5\xd0\xba'
>>> print bytes
ек
>>> print bytes.decode('utf-8')
ек

欢呼。

所以。这对我意味着什么？这意味着你（可能）解决了错误的问题。你应该问我们/试图弄清楚为什么你的字符串以这种形式开始，以及如何避免它/在你把它们都弄混之前修复它。

网友

2楼 · 编辑于 2024-09-29 19:16:40

（针对上面的注释）：此代码转换所有看起来像utf8的代码，并保留其他代码点：

a = u'\u0420\u0443\u0441 utf:\xd0\xb5\xd0\xba bytes:bl\xe4\xe4'

def convert(s):
    try:
        return s.group(0).encode('latin1').decode('utf8')
    except:
        return s.group(0)

import re
a = re.sub(r'[\x80-\xFF]+', convert, a)
print a.encode('utf8')

结果：

Рус utf:ек bytes:blää

网友

3楼 · 编辑于 2024-09-29 19:16:40

In Python 2, Unicode strings may contain both unicode and bytes:

不，他们可能不会。它们包含Unicode字符。

在原始字符串中，\xd0不是UTF-8编码的一部分。它是带有代码点208的Unicode字符。u'\xd0'==u'\u00d0'。恰好Python 2中Unicode字符串的repr更喜欢用\x转义来表示字符（即代码点<；256）。

无法查看字符串并指出\xd0字节应该是某个UTF-8编码字符的一部分，或者它实际上代表该Unicode字符本身。

但是，如果假设您始终可以将这些值解释为已编码的值，则可以尝试编写一些内容，依次分析每个字符（使用ord转换为代码点整数），将字符<；256解码为UTF-8，并按原样传递字符>；=256。

相关问题更多 >

编程相关推荐

热门问题

热门文章