非英语词汇的ngram生成

2024-10-03 04:35:57 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在为捷克语的单词执行二字组生成。我能够使用Python生成Bi-gram。问题在于捷克语中的非英语字符。你知道吗

输入:

共和国战略计划。你知道吗

执行Bigram时,输出为

[['republik\xc3\xa1n','strategii'],['strategii','proti'],['proti','znovuzvilen\xc3\xad'],['znovuzvilen\xc3\xad','Obamy']]

捷克语的特殊字母在双格RAM中转换为\xc3\xad。 为了在输出中以适当的方式获得特殊的字母,需要对代码做什么更改


Tags: 字母字符单词计划grambibigram战略
1条回答
网友
1楼 · 发布于 2024-10-03 04:35:57

数据是正确的,但是当您将列表转换为字符串时,输出是使用列表项的repr准备的,而不是str。比较:

>>> x = [['republikán']]
>>> print(x)
[['republik\xc3\xa1n']]
>>> print(x[0])
['republik\xc3\xa1n']
>>> print(x[0][0])
republikán
>>>

相关问题 更多 >