我使用AnacondaPython2.7进行阿拉伯语文本分类 当我打印单词、列表或单词时,它以Unicode显示 我想打印真正的阿拉伯单词 列表contians[阿拉伯语句子,标签]
from nltk.corpus.reader import CategorizedPlaintextCorpusReader reader = CategorizedPlaintextCorpusReader('mypath\\', r'(\w+)\.txt', cat_pattern=r'(\w+)\.txt',encoding='utf-8') document=reader.words('fileid')
documen[0]
输出
[[u'\u0631\u0626\u064a\u0633', u'\u0627\u0644\u0628\u0631\u0644\u0645\u0627\u0646', ...], 'Politic']
首先,我假设这是因为python2.7是在ASCII焦点下编写的(因此,
str(u'\u0631')
会产生一个UnicodeEncodeError
,因为在ASCII中不存在ξ字符。print u'\u0631'
可能是因为它只是将unicode直接发送到控制台,控制台配备了处理unicode呈现的功能。在这就是Python2打印列表时的工作方式。打印单个字符串或更新到Python 3:
Python 2
Python 3
^{pr2}${cd3>使用旧的Python行为^
相关问题 更多 >
编程相关推荐