如何处理阿拉比语中的重复字母

3条回答

网友

1楼 · 编辑于 2024-06-25 05:28:57

尝试以下操作：

import itertools
string = u"رااااائع"
''.join(char for char, _ in itertools.groupby(string))

我不能用阿拉伯语测试它，但它可以用普通的字符串

网友

2楼 · 编辑于 2024-06-25 05:28:57

您正在转换无法转换为utf-8的字符。在

UnicodeDecodeError: 'ascii' codec can't decode byte 0xd8 in position 0: ordinal not in range(128)

我建议您使用忽略或替换：

v= var.encode('utf-8', 'ignore')

或者：

^{pr2}$

网友

3楼 · 编辑于 2024-06-25 05:28:57

您需要在代码中添加以下行： from __future__ import unicode_literals

# encoding: utf-8
from __future__ import unicode_literals
import re
s="رااااائع"

s = re.sub(r'(.)\1+', r'\1', s)
print s

输出：

^{pr2}$