从包含多行的语料库中使用NLTK创建双元组 - 问答 - Python中文网

从包含多行的语料库中使用NLTK创建双元组

2024-09-29 23:18:31 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我试图从一个有多行的语料库中生成二元图。双元组是跨换行创建的，这是一个问题，因为每一行表示它自己的上下文，而与后续行无关。这会导致语义上不正确的双元组。在

语料库

Reeves Acrylfarbe 75Ml Ultramarin 
Acrylfarbe Deep Peach 
Reeves Acrylfarbe 75Ml Grasgrün 
Acrylfarbe Antique Go

有问题的双参数示例

'Ultramarin Acrylfarbe', 'Grasgrün Acrylfarbe'

这是我使用的代码：

^{pr2}$

我怎么能省略跨越两行的双元组呢？在

Tags：代码 go 示例参数省略语料库 deep peach

2条回答

网友

1楼 · 编辑于 2024-09-29 23:18:31

我相信这样的方法应该有效：

finder = nltk.BigramCollocationFinder.from_documents([
    nltk.word_tokenize(x) for x in corpus.split('\n')])
bigrams = finder.nbest(bigram_measures.likelihood_ratio, 100)

网友

2楼 · 编辑于 2024-09-29 23:18:31

我会在'\n'上使用split来获得一个行的列表，然后分别处理每一行并合并bigram列表

相关问题更多 >

编程相关推荐

热门问题

热门文章