Python与阿拉伯语姓名实体识别

2024-10-06 08:59:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我在表演阿拉伯语。代码如下:

from polyglot.text import Text
blob = "مرحبا اسمي rahul agnihotri أنا عمري 41 سنة و الهندية"
text = Text(blob)
text = Text(blob, hint_language_code='ar') #ar stands for arabic
print(text.entities)

在ubuntu中执行上述给定代码后,我得到以下给定错误:

SyntaxError: Non-ASCII character '\xd9' in file ./ner.py on line 4, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

但是,如果编码有效:

^{pr2}$

这不是我想要的。期望的输出应该是阿拉伯语,而不是这样。在

需要安装所有库。在


Tags: 代码textfromimportforcodelanguageblob
2条回答

必须解码Utf-8编码文本。打印时看到的是编码。所以它必须被解码。 我不熟悉多语言,我不能证实这一点,但请试试这个。在

如果要消除文件编码依赖关系,则在设置Blob之后,请使用: 二进制编码('utf-8') 然后解码utf-8供打印使用: 打印(text.entities.decode('utf-8')

在python中,通过解码这些字节,可以再次获得阿拉伯语文本

Str = "\u0627\u0644\u0647\u0646\u062f\u064a\u0629";
Str = Str.encode('UTF-8','strict');

print (Str.decode("utf-8"))

输出将是

^{pr2}$

我希望这就是你要找的

相关问题 更多 >