Python中文
首页
教程
问答
标签
搜索
登录
注册
带频率的ngram的Python列表
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我需要从文本中获取最流行的ngram。Ngrams长度必须为1到5个单词。</p> <p>我知道如何得到大图和三联图。例如:</p> <pre><code>bigram_measures = nltk.collocations.BigramAssocMeasures() finder = nltk.collocations.BigramCollocationFinder.from_words(words) finder.apply_freq_filter(3) finder.apply_word_filter(filter_stops) matches1 = finder.nbest(bigram_measures.pmi, 20) </code></pre> <p>然而,我发现scikit learn可以得到不同长度的ngram。例如,我可以得到长度从1到5的ngram。</p> <pre><code>v = CountVectorizer(analyzer=WordNGramAnalyzer(min_n=1, max_n=5)) </code></pre> <p>但WordNGramAnalyzer现在已被弃用。我的问题是:<em>如何从我的文本中得到N个最佳词语搭配,搭配长度从1到5。我还需要得到这个搭配的频率表。</em></p> <p>我可以用nltk/scikit来做吗?我需要从一个文本中得到不同长度的ngram的组合?</p> <p>例如,使用NLTK bigrams和trigrams,在许多情况下,我的trigrams包括我的bitgram,或者我的trigrams是更大的4-grams的一部分。例如:</p> <p>位图:<strong>你好,我的</strong> 三联图:<strong>你好,我的名字</strong></p> <p>我知道如何从三联图中排除大字,但我需要更好的解决方案。</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>如果你想生成原始的ngram(也许你自己计算一下),还有<code>nltk.util.ngrams(sequence, n)</code>。它将为任何值<em>n</em>生成一个ngram序列。它有填充选项,请参阅文档。</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何在乒乓球比赛中预测球的轨迹,对于AI球拍预测?
8 回答
如何在乒乓球游戏中阻止球
8 回答
如何在乘法和模中不乘空间?
7 回答
如何在乘法和除以2个不同的数字之间进行交换?
1 回答
如何在也是数据一部分的单个字符上拆分大字符串
2 回答
如何在乾草堆中找到針,有更好的解決方案嗎?
10 回答
如何在事件wxWidgets中传递自定义数据
2 回答
如何在事件中使用lambda i=i?
5 回答
如何在事件中心只接收最近的数据
9 回答
如何在事件发生之前保持云函数运行?
1 回答
如何在事件发生后使页面重定向到同一页面
7 回答
如何在事件回调之间保持python生成器的状态
9 回答
如何在事件处理程序(pythonsocket、sphinx)中保留docstring
3 回答
如何在事件处理程序中更改wxRichTextCtrl的光标位置?
8 回答
如何在事件处理程序中访问外部对象?
7 回答
如何在事件循环中将协程打包为正常函数?
6 回答
如何在事件循环之外运行协同程序?
1 回答
如何在事件循环结束时为并发未来的所有线程调用类方法?
5 回答
如何在事件文件中只保留一份摘要?
8 回答
如何在事件模板中添加事件
3 回答