我试图让Pytorch训练单个拼花地板文件的记录,而不必一次在内存中读取整个文件,因为它不适合内存。由于该文件是远程存储的,我宁愿将其作为单个文件保存,因为对许多文件使用IO进行培训非常昂贵。当我想指定DataLoader
中的批数时,如何在培训期间使用Pytorch的IterableDataset
或Dataset
读取文件中较小的块?我知道映射样式Dataset
在这种情况下不起作用,因为我需要一个文件中的所有内容,而不是读取每个文件的索引
我设法用tfio.IODataset
和tf.data.Dataset
在Tensorflow中实现了这一点,但我找不到在Pytorch中实现它的等效方法
我发现了一个使用
torch.utils.data.Dataset
的解决方法,但是数据必须事先使用dask进行处理,这样每个分区都是一个用户,存储为自己的拼花文件,但以后只能读取一次。在下面的代码中,标签和数据分别存储用于多变量时间序列分类问题(但也可以很容易地适应其他任务):我想知道在使用>;=2名工人读取数据,无重复条目。非常感谢您对这方面的任何见解
相关问题 更多 >
编程相关推荐