java中svd的文本挖掘问题
我经历了jama和colt(我用java编写代码)。他们都希望我使用数组,使行数大于列数
但关于潜在语义分析(LSA),我有5本书,总共有1000多个单词。当我使用术语文档矩阵时,我得到一个5*1000的矩阵
由于这不起作用,我不得不转置矩阵。在换位时,我使用1000*5。当我执行奇异值分解时,我得到了一个5*5的S矩阵。为了进行降维,5*5矩阵看起来很小
我们能做些什么
你可以在下面搜索框中键入要查询的问题!
我经历了jama和colt(我用java编写代码)。他们都希望我使用数组,使行数大于列数
但关于潜在语义分析(LSA),我有5本书,总共有1000多个单词。当我使用术语文档矩阵时,我得到一个5*1000的矩阵
由于这不起作用,我不得不转置矩阵。在换位时,我使用1000*5。当我执行奇异值分解时,我得到了一个5*5的S矩阵。为了进行降维,5*5矩阵看起来很小
我们能做些什么
# 1 楼答案
您使用的文本段大小太大。一个文档(列)应该代表一页或几页文本,最多可能代表一章。我也见过使用段落大小