以实际形式表示字符

2024-06-28 11:27:00 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个由以下命令生成的文件: fab -f vocab/fabfile build_vocab:<lang>,<corpus_files_root>。 此命令是spaCy指南的一部分,可从here获得。由于此命令与fabric一起使用,后者又与python2一起使用,因此输出中有许多用unicode代码表示的波斯语字符串,而不是实际的字符串,即字符串本身。换句话说,我有以下几点:

2   1   u'\u0641\u0632\u0646\u062f\u0627\u0646'
1   1   u'\u200c\u0645\u0648\u0647\u0627\u06cc'
2   1   u'\u0627\u0641\u0646\u0647'
.
.
.

而不是这个:

2   1   u'فزندان'
1   1   u'موهای'
2   1   u'افنه'
.
.
.

作为流程的下一部分,由上述fabric ...命令运行,它尝试读取此文件并将其与实际形式的单词进行比较。所以我想我需要把用Unicode表示的字符串转换成实际的形式。有什么办法吗?你知道吗


Tags: 文件字符串命令buildlangcorpus形式fabfile