是否可以只加载TensorFlow数据集的一部分？

2条回答

网友
1楼 · 编辑于 2024-09-30 08:36:56

是的，是的；从documentation开始：
split Which split of the data to load (e.g. 'train', 'test', ['train', 'test'], 'train[80%:]',...). See our split API guide. If None, will return all splits in a Dict[Split, tf.data.Dataset]
因此，如果我想要MNIST数据集训练集的前5%，我可以这样做：
>>> mnist_ds_5p = tfds.load("mnist", split="train[:5%]") >>> # looking at the size of the dataset >>> mnist_ds_5p.cardinality() <tf.Tensor: shape=(), dtype=int64, numpy=3000>
这个MNIST dataset contains 60000 training images，我们有3000个，所以5%
您可以通过阅读Splits and slicing guide来了解有关拆分语法的更多信息

网友
2楼 · 编辑于 2024-09-30 08:36:56

最初的问题是关于如何下载数据集的子集
因此，建议使用像split='train[:5%]'这样的参数作为只下载5%训练数据的方式的答案是错误的。看起来它仍然下载整个数据集，但只加载5%
您可以通过运行 mnist_ds_5p = tfds.load("mnist", split="train[:5%]") 然后是mnist_ds = tfds.load("mnist", split="train")
运行第二个命令后不会进行下载。这是因为在运行第一个命令之后，整个数据集已经被下载和缓存
由于许多数据集都是从压缩表单中获取的，我怀疑有没有一种简单的方法可以避免下载整个数据集

相关问题更多 >

编程相关推荐

热门问题

热门文章