我在表演阿拉伯语。代码如下:
from polyglot.text import Text
blob = "مرحبا اسمي rahul agnihotri أنا عمري 41 سنة و الهندية"
text = Text(blob)
text = Text(blob, hint_language_code='ar') #ar stands for arabic
print(text.entities)
在ubuntu中执行上述给定代码后,我得到以下给定错误:
SyntaxError: Non-ASCII character '\xd9' in file ./ner.py on line 4, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details
但是,如果编码有效:
^{pr2}$这不是我想要的。期望的输出应该是阿拉伯语,而不是这样。在
需要安装所有库。在
必须解码Utf-8编码文本。打印时看到的是编码。所以它必须被解码。 我不熟悉多语言,我不能证实这一点,但请试试这个。在
如果要消除文件编码依赖关系,则在设置Blob之后,请使用: 二进制编码('utf-8') 然后解码utf-8供打印使用: 打印(text.entities.decode('utf-8')
在python中,通过解码这些字节,可以再次获得阿拉伯语文本
输出将是
^{pr2}$我希望这就是你要找的
相关问题 更多 >
编程相关推荐