如何在pysp的TFIDF数据帧上应用SVD

| features | |----------| | (35,[7,9,11,12,19,26,33],[1.2039728043259361,1.2039728043259361,1.2039728043259361,1.6094379124341003,1.6094379124341003,1.6094379124341003,1.6094379124341003]) | | (35,[0,2,4,5,6,11,22],[0.9162907318741551,0.9162907318741551,1.2039728043259361,1.2039728043259361,1.2039728043259361,1.2039728043259361,1.6094379124341003]) |

2条回答

网友

1楼 · 编辑于 2024-09-28 01:24:57

我能解决它。因为错误提示RowMatrix不接受pyspark.ml.linalg.SparseVector向量，所以我把这个向量转换成pyspark.mllib.linalg，注意ml和{}。下面是将TF-IDF输出转换为RowMatrix的代码片段，您可以对其应用computeSVD方法。在

from pyspark.mllib.linalg import Vectors
mat = RowMatrix(df.rdd.map(lambda v: Vectors.dense(v.rawFeatures.toArray()) ))

我已经转换为稠密矩阵，但是您可以编写一些额外的代码来将ml.linalg.SparseVector转换成{}

网友

2楼 · 编辑于 2024-09-28 01:24:57

请原谅我没有在原始答案中发表评论，我还没有必要的声誉分数。为了加快速度，最好创建一个mllib.linalg.SparseVector。如果对其进行了以下修改：

from pyspark.mllib.linalg import Vectors
mat = RowMatrix(df.rdd.map(lambda v: Vectors.fromML(v.rawFeatures)))

相关问题更多 >

编程相关推荐

热门问题

热门文章