如何在python中提取高频短语

2024-10-01 00:20:09 发布

男 | 程序猿一只，喜欢编程写python代码。

这是语料库

abcdef
abcd
xabcd
b
bcef
ef
aef

我想提取的是abcd，ef，然后我试着计算所有n个克：

^{pr2}$

我的问题是如何区分abcd与abcdef和{}，因为{}只出现一次，而{}是'abcd'的子字符串。当然，我可以用这两个条件进行过滤，但是我只想知道解决这个问题的现有算法目标，还是python中的一个包？在

更新

我知道如何在python中计算n-gram，所以我的问题更多的是关于如何区分abcd和{}和{}，而不是如何计数。但是，如果您知道任何一个python包的目标是解决这个NLP问题，那么很高兴知道：）

Tags：字符串算法目标条件区分计数 gram 语料库

1条回答

网友

1楼 · 发布于 2024-10-01 00:20:09

把这个问题中的字母看作词性标记，这可以看作是一个语法抽取问题，给定句子已经被解析成词性

我不确定NLTK或{}中的其他库是否处理此问题。但我认为你可以自己搜索文献并实现一个简单的提取。在

希望这有帮助。在