如何一致地分割这两个字符串？

1条回答

网友

1楼 · 发布于 2024-09-29 22:28:52

如评论中所述，您只指定了汉字的多个范围中的一个

可以使用8位六位数Unicode转义指定更高的CJK范围。范围列在Unicode 14.0 Character Code Charts中。以下包括所有CJK统一表意文字扩展：

import re

CJK = ('\u4E00-\u9FFF'          # CJK Unified Ideographs
       '\u3400-\u4DBF'          # CJK Unified Ideographs Extension A
       '\U00020000-\U0002A6DF'  # CJK Unified Ideographs Extension B
       '\U0002A700-\U0002B73F'  # CJK Unified Ideographs Extension C
       '\U0002B740-\U0002B81F'  # CJK Unified Ideographs Extension D
       '\U0002B820-\U0002CEAF'  # CJK Unified Ideographs Extension E
       '\U0002CEB0-\U0002EBEF'  # CJK Unified Ideographs Extension F
       '\U00030000-\U0003134F') # CJK Unified Ideographs Extension G

re_default = re.compile(rf'([{CJK}a-zA-Z0-9+#&._%-]+)')

words1 = re_default.split('𩾃鱼')
words2 = re_default.split('兰蔻')

print(words1,words2)

输出：

['', '𩾃鱼', ''] ['', '兰蔻', '']

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何一致地分割这两个字符串？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >