2024-10-01 00:20:09 发布
网友
这是语料库
abcdef abcd xabcd b bcef ef aef
我想提取的是abcd,ef,然后我试着计算所有n个克:
abcd
ef
我的问题是如何区分abcd与abcdef和{},因为{}只出现一次,而{}是'abcd'的子字符串。当然,我可以用这两个条件进行过滤,但是我只想知道解决这个问题的现有算法目标,还是python中的一个包?在
abcdef
我知道如何在python中计算n-gram,所以我的问题更多的是关于如何区分abcd和{}和{},而不是如何计数。但是,如果您知道任何一个python包的目标是解决这个NLP问题,那么很高兴知道:)
把这个问题中的字母看作词性标记,这可以看作是一个语法抽取问题,给定句子已经被解析成词性
我不确定NLTK或{}中的其他库是否处理此问题。但我认为你可以自己搜索文献并实现一个简单的提取。在
NLTK
希望这有帮助。在
把这个问题中的字母看作词性标记,这可以看作是一个语法抽取问题,给定句子已经被解析成词性
我不确定}中的其他库是否处理此问题。但我认为你可以自己搜索文献并实现一个简单的提取。在
NLTK
或{希望这有帮助。在
相关问题 更多 >
编程相关推荐