在python内存中处理非常大的数据集

1条回答

网友

1楼 · 发布于 2024-09-27 04:25:52

正如@DSM在注释中所指出的，出现内存错误的原因是调用列表上的np.size将首先将数据复制到数组中，然后获取大小。

如果不需要将其作为numpy数组使用，只需不调用np.size。如果您确实需要类似于numpy的索引选项等等，那么您有几个选项。

您可以使用pandas，它用于处理不一定是数字的大数据集，并且有一些很好的助手和工具来完成这项工作。

如果您不想这样做，您可以定义一个numpystructure array，并在第一时间逐行填充它，而不是创建一个列表并复制到其中。类似于：

fields = [('name1', str), ('name2', float), ...]
data = np.zeros((num_rows,), dtype=fields)

csv_file_object = csv.reader(open(r'some_path\Train.csv','rb'))
header = csv_file_object.next()
for i, row in enumerate(csv_file_object):
    data[i] = row

您还可以基于header定义fields，这样就不必手动键入所有50个列名，尽管您需要为每个列名指定数据类型。

相关问题更多 >

编程相关推荐

热门问题

热门文章

在python内存中处理非常大的数据集

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >