我试图从一个有多行的语料库中生成二元图。双元组是跨换行创建的,这是一个问题,因为每一行表示它自己的上下文,而与后续行无关。这会导致语义上不正确的双元组。在
语料库
Reeves Acrylfarbe 75Ml Ultramarin
Acrylfarbe Deep Peach
Reeves Acrylfarbe 75Ml Grasgrün
Acrylfarbe Antique Go
有问题的双参数示例
'Ultramarin Acrylfarbe', 'Grasgrün Acrylfarbe'
这是我使用的代码:
^{pr2}$我怎么能省略跨越两行的双元组呢?在
我相信这样的方法应该有效:
我会在'\n'上使用
split
来获得一个行的列表,然后分别处理每一行并合并bigram列表相关问题 更多 >
编程相关推荐