如何在没有内存错误的情况下使用Python或R对大数据进行集群？

1条回答

网友

1楼 · 发布于 2024-06-26 13:43:49

出于琐碎的原因，函数dist需要二次内存。你知道吗

如果你有一百万（10^6）个点，一个二次矩阵需要10^12个条目。对于双精度，每个条目需要8个字节。使用对称性，您只需要存储一半的条目，仍然是4*10^12字节，也就是说，仅存储这个矩阵就需要4 TB。即使您将其存储在SSD上或将系统升级到4tb的RAM，计算所有这些距离也需要花费大量的时间。你知道吗

100万还是很小的，不是吗？你知道吗

在大数据上使用dist是不可能的。故事结束了。你知道吗

对于较大的数据集，您需要

使用不使用成对距离的方法，例如k-均值
使用诸如DBSCAN之类的方法，这些方法不需要距离矩阵，在某些情况下，索引可以将工作减少到O（n logn）
子样本将数据缩小

尤其是最后一件事是一个好主意，如果你还没有一个有效的解决方案。对于一个不起作用的方法来说，与可伸缩性作斗争是没有用的。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在没有内存错误的情况下使用Python或R对大数据进行集群？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >