如何从1000000行和20000个特性中获取最近邻矩阵?

2024-06-14 21:31:45 发布

您现在位置:Python中文网/ 问答频道 /正文

我有大麻烦了。 我想计算一千万条记录之间的关系,但由于Spark内存不足,处理停止。 通过TF-Hashing创建了1000万个文档,以创建20000个维度的特性。 首先,我尝试了'-近似相似度连接',但是计算没有收敛。 接下来,我试图尝试scikit-learn的KNN,但是当我把所有的数据带到Driver时,内存已经溢出了。 没有别的办法吗?在


Tags: 数据内存文档关系tfdriver记录特性
1条回答
网友
1楼 · 发布于 2024-06-14 21:31:45

最近的邻居似乎不是Spark的MLLib的一部分。我想到的选择是找到分布式spark实现或tensorflow实现

在数据库里?最新版本支持分布式Tensorflow。我在一个单节点Databricks Tensorflow集群上运行了比你的更大的卷。在

快速搜索发现了这些 *tensorflow nearest neighbor *spark nearest neighbor

请注意,我自己没有试过这些。在

相关问题 更多 >