在下面的代码中,Python似乎无法处理阿拉伯语字母。有什么想法吗?在
#!/usr/bin/python
# -*- coding: utf-8 -*-
import nltk
sentence = "ورود ممنوع"
tokens = nltk.word_tokenize(sentence)
print tokens
结果是:
^{pr2}$我还试着在字符串前面添加一个u
,但没用:
>>> u"ورود ممنوع">>>
['\xd9\x88\xd8\xb1\xd9\x88\xd8\xaf', '\xd9\x85\xd9\x85\xd9\x86\xd9\x88\xd8\xb9']
在包含字节字符串的列表中有正确的结果:
要将其转换为unicode,可以使用列表压缩:
^{pr2}$Printing Unicode Char inside a List
相关问题 更多 >
编程相关推荐