（Python）numpy genfromtxt转换问题

1条回答

网友

1楼 · 发布于 2024-10-02 08:26:26

正如注释中所讨论的，结果对象对于您的内存来说可能太大了。在

Numpy能够在磁盘上存储阵列（希望是SSD，如果使用HDD，这可能太慢了）。这称为memmap。在

可以在memmap中存储字符串之类的数据类型，但这可能会变得棘手：numpy.memmap for an array of strings?

而且，首先将数据放入memmap可能会很复杂。您可能需要拆分文件并分多次加载。然后您可以将各个部分逐个写入memmap。在

另一个重要的点可能是dtype。指定None并使用许多列。在不同的列中有不同的数据类型吗？如果是，您可能希望切换到pandas，而不是numpy。这将为类似电子表格的数据提供适当的数据类型。确保为每个列使用适当的数据类型。这可以显著减少内存占用（并且可能已经解决了您的问题）：https://www.dataquest.io/blog/pandas-big-data/

要检查numpy数组的内存占用，可以使用nbytes：

np.ones((10,10), dtype="float64").nbytes # 800
np.ones((10,10), dtype="int32").nbytes # 400

相关问题更多 >

编程相关推荐

热门问题

热门文章

（Python）numpy genfromtxt转换问题

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >