对于一个相似性项目,我需要分析1000维的特征向量并找到最接近的(我使用Manhattan distance,即scipy.spatial.distance.cityblock得到了一定的经验阈值)。我有几百万个向量要比较,会有更多的不断增加。你知道吗
我在考虑用熊猫来解决这项任务。行吗?我应该把数据集分成几个部分吗?你知道吗
向量由正实数(最多10)和零组成。你知道吗
...
0.0,
0.0,
0.00627385638654232,
0.0,
9.711357051855884e-07,
0.0,
2.1105501651763916,
0.0,
2.3891907896533837e-10,
0.0,
0.16674332320690155,
0.0,
0.0,
0.0,
0.0,
0.0,
4.790003475844827e-27,
0.0,
0.0,
0.0,
0.0,
3.0351770901292097e-13,
0.06621165573596954,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
1.1311118331775704e-17,
0.0,
0.0,
0.0,
7.631283341843815e-20,
0.0,
0.0,
1.6503195254813363e-08,
2.1143353508292794e-26,
0.0,
0.0,
0.0,
0.0,
0.0,
0.7260096073150635,
0.0,
0.0,
0.6851852536201477,
0.0,
0.0,
0.0,
0.005956938490271568,
...
目前没有回答
相关问题 更多 >
编程相关推荐