我正在为捷克语的单词执行二字组生成。我能够使用Python生成Bi-gram。问题在于捷克语中的非英语字符。你知道吗
输入:
共和国战略计划。你知道吗
执行Bigram时,输出为
[['republik\xc3\xa1n','strategii'],['strategii','proti'],['proti','znovuzvilen\xc3\xad'],['znovuzvilen\xc3\xad','Obamy']]
捷克语的特殊字母在双格RAM中转换为\xc3\xad。
为了在输出中以适当的方式获得特殊的字母,需要对代码做什么更改
Tags:
数据是正确的,但是当您将列表转换为字符串时,输出是使用列表项的
repr
准备的,而不是str
。比较:相关问题 更多 >
编程相关推荐