import unicodedata
def split_clusters(txt):
""" Generate grapheme clusters for the Devanagari text."""
stop = '्'
cluster = u''
end = None
for char in txt:
category = unicodedata.category(char)
if (category == 'Lo' and end == stop) or category == 'Mn':
cluster = cluster + char
else:
if cluster:
yield cluster
cluster = char
end = char
if cluster:
yield cluster
如果你逐个看你的字符串
还有你的另一根绳子
^{pr2}$所以您需要的是使用
'्
'्
来拆分这些。现在我们把它们称为符号字符。如果为第一个符号字符打印ord(data[2])
,则它是2381
。现在,如果你探究一下这个值我们主要对}之间的值感兴趣。所以我们创建一个这样的值数组
2362
和{下一步我们要找一个没有符号的图案。在
这会让你接近你想要的东西。如果您需要更复杂的处理,那么您将不得不使用@OphirYoktan发布的链接
查看
unicodedata
module。在分配给每个字符的名称:
^{pr2}$分配给每个字符的常规类别:
FileFormat.info具有Unicode字符类别列表。在
看看这是否是你想要达到的目标:
测试功能:
相关问题 更多 >
编程相关推荐