利用Pandas在大数据中寻找密切向量

2024-06-28 20:59:31 发布

男 | 程序猿一只，喜欢编程写python代码。

对于一个相似性项目，我需要分析1000维的特征向量并找到最接近的（我使用Manhattan distance，即scipy.spatial.distance.cityblock得到了一定的经验阈值）。我有几百万个向量要比较，会有更多的不断增加。你知道吗

我在考虑用熊猫来解决这项任务。行吗？我应该把数据集分成几个部分吗？你知道吗

向量由正实数（最多10）和零组成。你知道吗

    ...
    0.0,
    0.0,
    0.00627385638654232,
    0.0,
    9.711357051855884e-07,
    0.0,
    2.1105501651763916,
    0.0,
    2.3891907896533837e-10,
    0.0,
    0.16674332320690155,
    0.0,
    0.0,
    0.0,
    0.0,
    0.0,
    4.790003475844827e-27,
    0.0,
    0.0,
    0.0,
    0.0,
    3.0351770901292097e-13,
    0.06621165573596954,
    0.0,
    0.0,
    0.0,
    0.0,
    0.0,
    0.0,
    0.0,
    0.0,
    0.0,
    0.0,
    1.1311118331775704e-17,
    0.0,
    0.0,
    0.0,
    7.631283341843815e-20,
    0.0,
    0.0,
    1.6503195254813363e-08,
    2.1143353508292794e-26,
    0.0,
    0.0,
    0.0,
    0.0,
    0.0,
    0.7260096073150635,
    0.0,
    0.0,
    0.6851852536201477,
    0.0,
    0.0,
    0.0,
    0.005956938490271568,
    ...

Tags：数据项目阈值 scipy 经验相似性向量 spatial

0条回答

目前没有回答

利用Pandas在大数据中寻找密切向量

相关问题更多 >

编程相关推荐

热门问题

热门文章

利用Pandas在大数据中寻找密切向量

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >