Pythorch的简单数据集到dataloader库
pytorch-datastream的Python项目详细描述
这是一个简单的库,用于创建可读的数据集管道和 对不平衡数据集等问题重用最佳实践。有 只需跟踪两个组件:Dataset和Datastream。在
Dataset是索引和示例之间的简单映射。它提供 在一个可读的语法中的函数的流水线 tensorflow 2的tf.data.Dataset。在
Datastream将Dataset和采样器组合成一个示例流。 它为过采样/分层提供了一个简单的解决方案 采样,最后转换为torch.utils.data.DataLoader。在
安装
pip install pytorch-datastream
使用
下面的列表旨在展示在大多数标准中有用的函数 以及非标准案例。这并不是一份详尽的清单。见 documentation用于 关于API和用法的更广泛的列表。在
^{pr2}$合并/分层/过采样数据流
下面给出的水果数据流反复生成它的水果串 类型。在
>>>datastream=Datastream.merge([...(apple_datastream,2),...(pear_datastream,1),...(banana_datastream,1),...])>>>next(iter(datastream.data_loader(batch_size=8)))['apple','apple','pear','banana','apple','apple','pear','banana']
独立采样的数据流<3>
下面给出的水果数据流反复生成它的水果串 类型。在
>>>datastream=Datastream.zip([...apple_datastream,...Datastream.merge([pear_datastream,banana_datastream]),...])>>>next(iter(datastream.data_loader(batch_size=4)))[('apple','pear'),('apple','banana'),('apple','pear'),('apple','banana')]
更多用法示例
见documentation 更多用法示例。在
从源安装
要在本地修补python3.6的代码,请运行patch-python3.6.sh。在
$ ./patch-python3.6.sh
- 项目
标签: