大型数据集的hnswlib参数?

2024-06-26 00:01:05 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用Python中的库hnswlibhttps://github.com/nmslib/hnswlib)来实现快速的KNN搜索。我想知道大型数据集的参数

我正在使用这个来自官方存储库的基准测试大型数据集上的库行为(向量维度为256+,有100万个向量+https://github.com/nmslib/hnswlib/blob/master/examples/example.py

使用几个100k的小数据集进行测试,该基准测试的召回结果要求良好,通常在0.9左右。增加到百万,则下降到0.7

库的作者概述了库的参数(https://github.com/nmslib/hnswlib/blob/master/ALGO_PARAMS.md)的一些一般属性,但是找到一个能够在大数据上实现高召回率的设置是非常耗时的,因为索引构建时间需要几个小时,并且随着参数值的增大而进一步增加

对于某些数据维度或数据点的数量是否有一些最佳实践值?我知道这个库很受欢迎,但我找不到任何有价值的推荐


Tags: 数据httpsgithubmastercom参数官方基准