无法访问PySpark:ColumnSimpliances（）、computeColumnSummaryStatistics（）中的RowMatrix方法

2024-10-02 04:20:57 发布

您现在位置：Python中文网/ 问答频道 /正文

8312

网友

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试使用函数columnSimpliances（），computeColumnSummaryStatistics（）

尤其是本文中提到的columnSimpliances（）函数：

https://databricks.com/blog/2014/10/20/efficient-similarity-algorithm-now-in-spark-twitter.html

我使用的是mlib的稀疏向量列表。在

sparse_vectors = []

for cust, group in df.groupby(0):

    i_v = zip(group[1].values, group[2].values)
    i_v = sorted(i_v)
    indices = [x[0] for x in i_v]
    values = [x[1] for x in i_v]
    sparse_vectors.append(Vectors.sparse(len(df[1].unique()), indices, values))

rows = sc.parallelize(sparse_vectors)
mat = RowMatrix(rows)

我得到了一个错误：

AttributeError: 'RowMatrix' object has no attribute 'computeColumnSummaryStatistics'

或者

AttributeError: 'RowMatrix' object has no attribute 'columnSimilarities'

每次我运行函数。在

这是PySpark的问题，而不是scalaspark吗？我也无法通过谷歌搜索找到RowMatrix函数的页面。在

谢谢你

Tags：函数 in df for object group rows attributeerror

1条回答

网友

1楼 · 发布于 2024-10-02 04:20:57

您不能访问这些方法，因为目前（Spark 1.6）这些方法还没有在PySpark中实现。在

IndexedRowMatrix.columnSimilarities（请参见SPARK-12041）在当前主服务器中可用，但是要使用它，您必须从源代码构建Spark。在

无法访问PySpark:ColumnSimpliances（）、computeColumnSummaryStatistics（）中的RowMatrix方法

相关问题更多 >

编程相关推荐

热门问题

热门文章

无法访问PySpark:ColumnSimpliances（）、computeColumnSummaryStatistics（）中的RowMatrix方法

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >