2024-06-14 21:31:45 发布
网友
我有大麻烦了。 我想计算一千万条记录之间的关系,但由于Spark内存不足,处理停止。 通过TF-Hashing创建了1000万个文档,以创建20000个维度的特性。 首先,我尝试了'-近似相似度连接',但是计算没有收敛。 接下来,我试图尝试scikit-learn的KNN,但是当我把所有的数据带到Driver时,内存已经溢出了。 没有别的办法吗?在
最近的邻居似乎不是Spark的MLLib的一部分。我想到的选择是找到分布式spark实现或tensorflow实现
在数据库里?最新版本支持分布式Tensorflow。我在一个单节点Databricks Tensorflow集群上运行了比你的更大的卷。在
快速搜索发现了这些 *tensorflow nearest neighbor *spark nearest neighbor
请注意,我自己没有试过这些。在
最近的邻居似乎不是Spark的MLLib的一部分。我想到的选择是找到分布式spark实现或tensorflow实现
在数据库里?最新版本支持分布式Tensorflow。我在一个单节点Databricks Tensorflow集群上运行了比你的更大的卷。在
快速搜索发现了这些 *tensorflow nearest neighbor *spark nearest neighbor
请注意,我自己没有试过这些。在
相关问题 更多 >
编程相关推荐