从包含多行的语料库中使用NLTK创建双元组

2024-09-29 23:18:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图从一个有多行的语料库中生成二元图。双元组是跨换行创建的,这是一个问题,因为每一行表示它自己的上下文,而与后续行无关。这会导致语义上不正确的双元组。在

语料库

Reeves Acrylfarbe 75Ml Ultramarin 
Acrylfarbe Deep Peach 
Reeves Acrylfarbe 75Ml Grasgrün 
Acrylfarbe Antique Go 

有问题的双参数示例

'Ultramarin Acrylfarbe', 'Grasgrün Acrylfarbe'

这是我使用的代码:

^{pr2}$

我怎么能省略跨越两行的双元组呢?在


Tags: 代码go示例参数省略语料库deeppeach
2条回答

我相信这样的方法应该有效:

finder = nltk.BigramCollocationFinder.from_documents([
    nltk.word_tokenize(x) for x in corpus.split('\n')])
bigrams = finder.nbest(bigram_measures.likelihood_ratio, 100)

我会在'\n'上使用split来获得一个行的列表,然后分别处理每一行并合并bigram列表

相关问题 更多 >

    热门问题