无法访问PySpark:ColumnSimpliances()、computeColumnSummaryStatistics()中的RowMatrix方法

2024-10-02 04:20:57 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试使用函数columnSimpliances(),computeColumnSummaryStatistics()

  • 尤其是本文中提到的columnSimpliances()函数:

https://databricks.com/blog/2014/10/20/efficient-similarity-algorithm-now-in-spark-twitter.html

我使用的是mlib的稀疏向量列表。在

sparse_vectors = []

for cust, group in df.groupby(0):

    i_v = zip(group[1].values, group[2].values)
    i_v = sorted(i_v)
    indices = [x[0] for x in i_v]
    values = [x[1] for x in i_v]
    sparse_vectors.append(Vectors.sparse(len(df[1].unique()), indices, values))

rows = sc.parallelize(sparse_vectors)
mat = RowMatrix(rows)

我得到了一个错误:

AttributeError: 'RowMatrix' object has no attribute 'computeColumnSummaryStatistics'

或者

AttributeError: 'RowMatrix' object has no attribute 'columnSimilarities'

每次我运行函数。在

这是PySpark的问题,而不是scalaspark吗?我也无法通过谷歌搜索找到RowMatrix函数的页面。在

谢谢你


Tags: 函数indfforobjectgrouprowsattributeerror
1条回答
网友
1楼 · 发布于 2024-10-02 04:20:57

您不能访问这些方法,因为目前(Spark 1.6)这些方法还没有在PySpark中实现。在

IndexedRowMatrix.columnSimilarities(请参见SPARK-12041)在当前主服务器中可用,但是要使用它,您必须从源代码构建Spark。在

相关问题 更多 >

    热门问题