我有一个由以下命令生成的文件:
fab -f vocab/fabfile build_vocab:<lang>,<corpus_files_root>
。
此命令是spaCy指南的一部分,可从here获得。由于此命令与fabric
一起使用,后者又与python2一起使用,因此输出中有许多用unicode代码表示的波斯语字符串,而不是实际的字符串,即字符串本身。换句话说,我有以下几点:
2 1 u'\u0641\u0632\u0646\u062f\u0627\u0646'
1 1 u'\u200c\u0645\u0648\u0647\u0627\u06cc'
2 1 u'\u0627\u0641\u0646\u0647'
.
.
.
而不是这个:
2 1 u'فزندان'
1 1 u'موهای'
2 1 u'افنه'
.
.
.
作为流程的下一部分,由上述fabric ...
命令运行,它尝试读取此文件并将其与实际形式的单词进行比较。所以我想我需要把用Unicode表示的字符串转换成实际的形式。有什么办法吗?你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐