处理由npy文件组成的大型数据集

2024-10-01 02:27:04 发布

您现在位置:Python中文网/ 问答频道 /正文

我有大量的npy文件(448个文件),每个文件由大约12k帧(150x150个RGB图像)组成,它们共同构成了我的神经网络(X)的输入。但是,由于不可能将所有文件加载到单个数组中,而且有必要对所有样本进行洗牌以避免偏差,因此如何创建输入并将其馈送到网络?有人建议创建一个虚拟数组来表示索引,将其洗牌,根据数组大小和索引创建块,然后将块输入神经网络。不过,我想知道是否还有更简单的方法。我也很熟悉Tensorflow(+keras)和PyTorch。 因此,一句话,我想做这一步,但有大量的大型npy文件:

X_train_filenames, X_val_filenames, y_train, y_val = train_test_split(...)

Tags: 文件方法图像网络train神经网络valrgb