如何从1000000行和20000个特性中获取最近邻矩阵？ - 问答 - Python中文网

如何从1000000行和20000个特性中获取最近邻矩阵？

2024-06-14 21:31:45 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有大麻烦了。我想计算一千万条记录之间的关系，但由于Spark内存不足，处理停止。通过TF-Hashing创建了1000万个文档，以创建20000个维度的特性。首先，我尝试了'-近似相似度连接'，但是计算没有收敛。接下来，我试图尝试scikit-learn的KNN，但是当我把所有的数据带到Driver时，内存已经溢出了。没有别的办法吗？在

Tags：数据内存文档关系 tf driver 记录特性

1条回答

网友

1楼 · 发布于 2024-06-14 21:31:45

最近的邻居似乎不是Spark的MLLib的一部分。我想到的选择是找到分布式spark实现或tensorflow实现

在数据库里？最新版本支持分布式Tensorflow。我在一个单节点Databricks Tensorflow集群上运行了比你的更大的卷。在

快速搜索发现了这些 *tensorflow nearest neighbor *spark nearest neighbor

请注意，我自己没有试过这些。在

相关问题更多 >

编程相关推荐

热门问题

热门文章