块矩阵的Pypark广播变量

2024-10-02 18:27:21 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用两个矩阵,一个是历史数据的降维矩阵,另一个是包含新数据的矩阵(两者都是块矩阵数据结构)。我想做在numpy容易做的事

ya=dot(oldDataMat,newDataMat[:,i])

但是在Spark工作时,我发现我需要转置newData BlockMatrix的列,这样我就可以做一个.map,然后我发现我不能做一个包含oldDataMat BlockMatrix的.map函数,因为它不在workers中。所以我想知道A)有没有更简单的方法来做numpy中容易的事情,或者B)如何在Pypark中广播区块矩阵?我想找出新数据矩阵和旧数据矩阵之间的余弦相似性。你知道吗

谢谢!你知道吗


Tags: 数据函数numpy数据结构map矩阵dotspark