如何在Python3中将阿拉伯语字符转换为其基本字形形式?

2024-06-01 08:13:03 发布

您现在位置:Python中文网/ 问答频道 /正文

由于单个阿拉伯字符可以采用多种字形形式,因此每种形式都有多个unicode/utf-8编码,例如,Aleph:{}/strong>与{}、{}/strong>与{}、{与{}、{}、utf-8==\xD8\xA7的分离aleph

在Python3中,如何将阿拉伯语字符转换为其基本字形形式


Tags: 编码unicode字符形式python3utfstrong字形
1条回答
网友
1楼 · 发布于 2024-06-01 08:13:03

您可以使用unicodedata.normalize将代码点转换为其分解形式,包括基本字符和修饰符。它并不适用于所有情况(尤其是Maqsurah),但可以帮助您编写函数来确定一些基本形式:

>>> s='ـا' # this character already consisted of the base code point.
>>> import unicodedata as ud
>>> for c in s:
...     print(f'{c} U+{ord(c):04X} {ud.name(c)}')
...     
ـ U+0640 ARABIC TATWEEL
ا U+0627 ARABIC LETTER ALEF

>>> s = 'أإآ' # These characters have decomposed forms
>>> for c in s:
...     print(f'{c} U+{ord(c):04X} {ud.name(c)}')
...     
أ U+0623 ARABIC LETTER ALEF WITH HAMZA ABOVE
إ U+0625 ARABIC LETTER ALEF WITH HAMZA BELOW
آ U+0622 ARABIC LETTER ALEF WITH MADDA ABOVE
>>> s = ud.normalize('NFD',s)
>>> for c in s:
...     print(f'{c} U+{ord(c):04X} {ud.name(c)}')
...     
ا U+0627 ARABIC LETTER ALEF
ٔ  U+0654 ARABIC HAMZA ABOVE
ا U+0627 ARABIC LETTER ALEF
ٕ  U+0655 ARABIC HAMZA BELOW
ا U+0627 ARABIC LETTER ALEF
ٓ  U+0653 ARABIC MADDAH ABOVE

相关问题 更多 >