擅长:python、mysql、java
<p>在提取ngrams之前,将组中的文档连接起来是没有意义的——任何以这种方式生成的新ngrams都不会存在于任何单个文档中</p>
<p>正如您正确地注意到的,您使用的任何标记化方法都将导致一个大的稀疏矩阵。这不一定是个问题-无论您打算使用什么库进行分类,都可能会提供一种有效的表示方法,用于存储稀疏矩阵,通常用于为您计算tf idf矩阵</p>
<p>您可能还希望仅使用ngram的一个子集作为功能,使用ngram频率和ngram长度(给定ngram中的“克数”)的某种组合来选择相关的ngram</p>
<p>或者,您可以使用潜在语义分析的原始形式—计算tf idf矩阵,然后使用主成分分析(或奇异值分解,如果NGRAM和文档的数量太大,以至于无法计算其协方差矩阵空间),减少特征的数量</p>