我想训练一个模型,我有一个大的数据集来训练。 它的大小超过20gb。 但当我试着读的时候,花了很长时间。 我想把它装进内存里。在
with open(file_path, newline='', encoding='utf-8') as f:
reader = csv.reader(f)
for i,row in enumerate(islice(reader,0,1)):
train_data = np.array(makefloat(row))[None,:]
for i,row in enumerate(reader):
train_data = np.vstack((train_data,np.array(makefloat(row))[None,:]))
每行有43个浮动。在
花了很长时间,我只测试了10万行,花了20分钟。在
我想我做错了。我怎样才能更快?在
阅读整个文件是不好的。你可以使用像Dask这样的东西,它可以分块读取你的文件,速度会更快。 Dask
相关问题 更多 >
编程相关推荐