导入大型图像数据集的深度学习建议

2024-09-28 21:41:46 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前正在处理一个大约10000张600x450px图像的大数据集,用于我提出的一个深度学习项目。到目前为止,我已经尝试了几种不同的方法将这些图像导入到我的程序中,尽管我注意到它们都花费了非常长的时间。公平地说,我知道我的数据集的大小绝不小,但我只是好奇是否有更好的方法来做这件事,因为我写这篇文章时,数据的导入阶段只完成了25%,而且已经进行了大约9个小时。我对任何人提出的更有效地导入这些数据的建议持开放态度;我正试图最终将图像数据的张量表示为numpy矩阵,因为我提出的深度学习项目涉及卷积神经网络。也许我最好缩小图像的比例?如果是这样的话,请让我知道我如何才能有效地做到这一点,就像我说的,有10000个。这是我的工作代码:

DATADIR = "./HAM10000/skin-cancer-mnist-ham10000/HAM10000_full"
lesions = []

for image in range(24306, 34320):
    printProgressBar(image-24306, 34320-24306, prefix='Import', decimals=2)

    path = os.path.join(DATADIR, ("ISIC_" + "{:07d}".format(image) + ".jpg")) # path to lesion images
    lesions = np.append(lesions, cv2.imread(path))

这里的大部分代码只是为了获得正确的图像名称,不过正如您所看到的,我使用cv2.imread加载每个图像,并将该图像附加到numy数组中。你知道吗


Tags: 数据path项目方法代码图像image程序