python regex无法匹配特定的Unicode>2个十六进制值

1条回答

网友

1楼 · 发布于 2024-10-16 17:29:05

BMP之外的代码点使用\Uxxxxxxxx（因此大写U和8个十六进制字符）。您使用的是\uxxxx，它只接受四个十六进制字符，00不是unicode代码点的一部分：

>>> len(u'\u01f600')
3
>>> len(u'\U0001f600')
1
>>> u'\u01f600'[0]
'\u01f6'
>>> u'\u01f600'[1:]
'00'

您需要在此处使用unicode模式：

^{pr2}$

演示：

>>> import re
>>> re.search(u'[\U0001F600-\U0001F64F]', u'\U0001F600')
<_sre.SRE_Match object at 0xb73ead08>

您需要使用ucs4python构建，否则非BMP代码点是使用UTF16代理项对实现的，这在正则表达式中不能很好地工作。在

如果len(u'\U0001f600')返回2，则您使用的是窄UCS2内部版本，或者可以查看^{}；宽版本返回1114111，窄版本返回65535。在

在UCS2系统上，对于这种特定情况，还可以将UTF16代理项与表达式匹配：

ur'\ud83d[\ude00-\ude4f]'

这与组成与[\U0001F600-\U0001F64F]相同范围的UTF-16代理项对匹配，但是在狭窄的内部版本上：

>>> import sys
>>> sys.maxunicode
65535
>>> import re
>>> re.search(u'\ud83d[\ude00-\ude4f]', u'\U0001F600')
<_sre.SRE_Match object at 0x105e9f5e0>