如何在python中提取高频短语

2024-10-01 00:20:09 发布

您现在位置:Python中文网/ 问答频道 /正文

这是语料库

abcdef
abcd
xabcd
b
bcef
ef
aef

我想提取的是abcdef,然后我试着计算所有n个克:

^{pr2}$

我的问题是如何区分abcdabcdef和{},因为{}只出现一次,而{}是'abcd'的子字符串。当然,我可以用这两个条件进行过滤,但是我只想知道解决这个问题的现有算法目标,还是python中的一个包?在

更新

我知道如何在python中计算n-gram,所以我的问题更多的是关于如何区分abcd和{}和{},而不是如何计数。但是,如果您知道任何一个python包的目标是解决这个NLP问题,那么很高兴知道:)


Tags: 字符串算法目标条件区分计数gram语料库
1条回答
网友
1楼 · 发布于 2024-10-01 00:20:09

把这个问题中的字母看作词性标记,这可以看作是一个语法抽取问题,给定句子已经被解析成词性

我不确定NLTK或{}中的其他库是否处理此问题。但我认为你可以自己搜索文献并实现一个简单的提取。在

希望这有帮助。在

相关问题 更多 >