我有一些非常大的矩阵(比如说百万行的数量级),我不能保存在内存中,我需要在下降时间(不到一分钟…)访问这个矩阵的子样本。
我开始研究hdf5和blaze与numpy和pandas的结合:
但我觉得有点复杂,我不确定这是不是最好的解决办法。你知道吗
还有其他解决办法吗?你知道吗
谢谢
编辑
这里有一些关于我正在处理的数据类型的详细说明。你知道吗
- 矩阵通常是稀疏的(非零单元格的<;10%或<;25%)
- 矩阵是对称的
我需要做的是:
- 只读访问
- 提取矩形子矩阵(主要沿对角线,但也在外侧)
Tags:
你试过桌子吗?它对于非常大的矩阵非常有用。看看this SO post。你知道吗
您的问题在上下文中有点欠缺;但是对于您描述的这些相对密集的矩阵,hdf5压缩块存储可能与稀疏存储格式一样有效。在内存中,您可以始终将视图转换为稀疏矩阵(如果有好处的话)。这似乎是一个有效而简单的解决方案;据我所知,没有稀疏矩阵格式可以轻松地从磁盘读取部分内容。你知道吗
相关问题 更多 >
编程相关推荐