从字符串中获取转义的unicode代码

网友

1楼 · 编辑于 2024-10-01 22:26:43

如果没有BMP（>；0xFFFF）之外的字符，则无需执行.encode（）步骤：

>>> ''.join('\\u{:04x}'.format(ord(a)) for a in u'Message')
'\\u004d\\u0065\\u0073\\u0073\\u0061\\u0067\\u0065'

网友

2楼 · 编辑于 2024-10-01 22:26:43

我认为这个（快速和肮脏）代码可以满足您的需要：

''.join('\\u' + x.encode('utf_16_be').encode('hex') for x in u'MESSAGE:')
# output: '\\u004d\\u0045\\u0053\\u0053\\u0041\\u0047\\u0045\\u003a'

或者如果你想要更多的“\”：

^{pr2}$

如果十六进制代码绝对需要大写：

''.join('\\u' + x.encode('utf_16_be').encode('hex').upper() for x in u'MESSAGE:')
# output: '\\u004D\\u0045\\u0053\\u0053\\u0041\\u0047\\u0045\\u003A'

网友

3楼 · 编辑于 2024-10-01 22:26:43

Pierre的答案几乎是正确的，但是对于U+FFFF以上的字符，for x in u'MESSAGE:'位将失败，除了“窄构建”（主要是在Windows上的Python1.6-3.2），它使用UTF-16作为Unicode字符串。在

在'wide builds'（在3.3+中，这种区别已经不存在，len(unichr(0x10000))是1不是{}。当这个代码点是UTF-16BE编码的时，会得到两个占用四个字节的代理项，因此输出是'\\uD800DC00'，而不是您可能想要的u'\\uD800\\uDC00'。在

要在Python的两个变体上覆盖它，可以执行以下操作：

>>> h = u'MESSAGE:\U00010000'.encode('utf-16be').encode('hex')
# '004d004500530053004100470045003ad800dc00'
>>> ''.join(r'\u' + h[i:i+4] for i in range(0, len(h), 4))
'\\u004d\\u0045\\u0053\\u0053\\u0041\\u0047\\u0045\\u003a\\ud800\\udc00'

相关问题更多 >

编程相关推荐

热门问题

热门文章

从字符串中获取转义的unicode代码

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >