如何在Python3中将阿拉伯语字符转换为其基本字形形式？

1条回答

网友
1楼 · 发布于 2024-06-01 08:13:03

您可以使用unicodedata.normalize将代码点转换为其分解形式，包括基本字符和修饰符。它并不适用于所有情况（尤其是Maqsurah），但可以帮助您编写函数来确定一些基本形式：
>>> s='ـا' # this character already consisted of the base code point. >>> import unicodedata as ud >>> for c in s: ... print(f'{c} U+{ord(c):04X} {ud.name(c)}') ... ـ U+0640 ARABIC TATWEEL ا U+0627 ARABIC LETTER ALEF >>> s = 'أإآ' # These characters have decomposed forms >>> for c in s: ... print(f'{c} U+{ord(c):04X} {ud.name(c)}') ... أ U+0623 ARABIC LETTER ALEF WITH HAMZA ABOVE إ U+0625 ARABIC LETTER ALEF WITH HAMZA BELOW آ U+0622 ARABIC LETTER ALEF WITH MADDA ABOVE >>> s = ud.normalize('NFD',s) >>> for c in s: ... print(f'{c} U+{ord(c):04X} {ud.name(c)}') ... ا U+0627 ARABIC LETTER ALEF ٔ U+0654 ARABIC HAMZA ABOVE ا U+0627 ARABIC LETTER ALEF ٕ U+0655 ARABIC HAMZA BELOW ا U+0627 ARABIC LETTER ALEF ٓ U+0653 ARABIC MADDAH ABOVE

相关问题更多 >

编程相关推荐

热门问题

热门文章