用于快速存取的索引百万行方阵

2024-10-05 13:19:28 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一些非常大的矩阵(比如说百万行的数量级),我不能保存在内存中,我需要在下降时间(不到一分钟…)访问这个矩阵的子样本。 我开始研究hdf5和blaze与numpy和pandas的结合:

但我觉得有点复杂,我不确定这是不是最好的解决办法。你知道吗

还有其他解决办法吗?你知道吗

谢谢

编辑

这里有一些关于我正在处理的数据类型的详细说明。你知道吗

  • 矩阵通常是稀疏的(非零单元格的<;10%或<;25%)
  • 矩阵是对称的

我需要做的是:

  • 只读访问
  • 提取矩形子矩阵(主要沿对角线,但也在外侧)

Tags: 内存ioltnumpywebhttppandas矩阵
2条回答

你试过桌子吗?它对于非常大的矩阵非常有用。看看this SO post。你知道吗

您的问题在上下文中有点欠缺;但是对于您描述的这些相对密集的矩阵,hdf5压缩块存储可能与稀疏存储格式一样有效。在内存中,您可以始终将视图转换为稀疏矩阵(如果有好处的话)。这似乎是一个有效而简单的解决方案;据我所知,没有稀疏矩阵格式可以轻松地从磁盘读取部分内容。你知道吗

相关问题 更多 >

    热门问题