如何在Python中获得组合Unicode字符串的“可见”长度？

3条回答

网友

1楼 · 编辑于 2024-09-28 05:23:09

^{} module有一个函数combining，可用于确定单个字符是否为组合字符。如果它返回0，则可以将字符计数为非组合字符。在

import unicodedata
len(u''.join(ch for ch in u'A\u0332\u0305BC' if unicodedata.combining(ch) == 0))

或者，稍微简单一点：

^{pr2}$

网友

2楼 · 编辑于 2024-09-28 05:23:09

如果您的regex风格支持匹配grapheme，那么可以使用\X

虽然默认的Python re模块不支持\X，但Matthew Barnett的regex module支持：

>>> len(regex.findall(r'\X', u'A\u0332\u0305BC'))
3

在Python2上，您需要在模式中使用u：

^{pr2}$

网友

3楼 · 编辑于 2024-09-28 05:23:09

组合字符不是唯一的零宽度字符：

>>> sum(1 for ch in u'\u200c' if unicodedata.combining(ch) == 0)
1

（"\u200c"或"‌"是零宽度非连接符；它是非打印字符。）

在这种情况下，regex模块不工作：

^{pr2}$

我找到了正确处理上述情况的wcwidth：

>>> from wcwidth import wcswidth
>>> wcswidth(u'A\u0332\u0305BC')
3
>>> wcswidth(u'\u200c')
0

但在用户596219的示例中似乎仍然不起作用：

>>> wcswidth('각')
4