我正在尝试使用函数columnSimpliances(),computeColumnSummaryStatistics()
https://databricks.com/blog/2014/10/20/efficient-similarity-algorithm-now-in-spark-twitter.html
我使用的是mlib的稀疏向量列表。在
sparse_vectors = []
for cust, group in df.groupby(0):
i_v = zip(group[1].values, group[2].values)
i_v = sorted(i_v)
indices = [x[0] for x in i_v]
values = [x[1] for x in i_v]
sparse_vectors.append(Vectors.sparse(len(df[1].unique()), indices, values))
rows = sc.parallelize(sparse_vectors)
mat = RowMatrix(rows)
我得到了一个错误:
AttributeError: 'RowMatrix' object has no attribute 'computeColumnSummaryStatistics'
或者
AttributeError: 'RowMatrix' object has no attribute 'columnSimilarities'
每次我运行函数。在
这是PySpark的问题,而不是scalaspark吗?我也无法通过谷歌搜索找到RowMatrix函数的页面。在
谢谢你
您不能访问这些方法,因为目前(Spark 1.6)这些方法还没有在PySpark中实现。在
IndexedRowMatrix.columnSimilarities
(请参见SPARK-12041)在当前主服务器中可用,但是要使用它,您必须从源代码构建Spark。在相关问题 更多 >
编程相关推荐