擅长:python、mysql、java
<p>在你尝试之前,你不知道哪种方法有效。不过,我推荐第一种方法;我在非常嘈杂的数据中成功地使用了它,其中电子邮件主题标题(短文本,不正确的句子)的“句子”甚至语言都是未知的(大约85%的英语;Cavnar&Trenkle算法很快就崩溃了)。<em>成功</em>被定义为在搜索引擎中提高检索性能;如果您只想计算频率,问题可能会更容易。在</p>
<p>确保你使用的POS标记器考虑到了上下文(大多数情况下)。检查一下你得到的单词和频率列表,也许可以去掉一些你不考虑虚词的单词,甚至过滤掉那些太长的单词;这样可以消除误报。在</p>
<p>(免责声明:我使用的是斯坦福POS标签,不是NLTK,所以是YMMV。我用了一个默认的英语模式,我想是在宾州大学的Treebank上训练的。)</p>