在python2+GTK中检测/删除未配对的代理项字符

2条回答

网友

1楼 · 编辑于 2024-10-01 07:49:09

您可以在编码之前自己进行替换：

import re

lone = re.compile(
    ur'''(?x)            # verbose expression (allows comments)
    (                    # begin group
    [\ud800-\udbff]      #   match leading surrogate
    (?![\udc00-\udfff])  #   but only if not followed by trailing surrogate
    )                    # end group
    |                    #  OR
    (                    # begin group
    (?<![\ud800-\udbff]) #   if not preceded by leading surrogate
    [\udc00-\udfff]      #   match trailing surrogate
    )                    # end group
    ''')

u = u'abc\ud834\ud82a\udfcdxyz'
print repr(u)
b = lone.sub(ur'\ufffd',u).encode('utf8')
print repr(b)
print repr(b.decode('utf8'))

输出：

^{pr2}$

网友

2楼 · 编辑于 2024-10-01 07:49:09

以下是解决这个问题的方法：

invalid_string.encode('utf16').decode('utf16', 'replace')

我的理解是代理对是UTF-16的一部分，这就是为什么用UTF-8进行编码/解码没有任何作用。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

在python2+GTK中检测/删除未配对的代理项字符

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >