fanstore在计算机集群中收集本地存储空间,以便使用更大的数据集进行分布式神经网络训练

fanstore的Python项目详细描述


#概述 fanstore是一种支持并行神经网络训练的共享对象存储。fanstore通过fusepy提供一个posix兼容的文件系统接口,并通过mpi4py提供低延迟通信。fanstore可以在运行时使用主存储器、ram磁盘和本地存储器进行瞬时并行i/o。

#开始 ` sbatch bin/fanstore.slurm `

#手动启动fanstore ##完整的imagenet数据集 ` module load python3 mpiexec.hydra -f../test/hostfile-ppn 1 python3 fanstore.py /tmp/amfora /tmp/data --loadscatter/work/00946/zzhang/imagenet/16-parts--loadbcast/work/00946/zzhang/imagenet/16-parts-validation & `

##ImageNet数据集的四分之一 ` mpiexec.hydra -f../test/hostfile-ppn 1 python3 fanstore.py /tmp/amfora /tmp/data --loadscatter /work/00946/zzhang/imagen et/16-parts-test--loadbcast/work/00946/zzhang/imagenet/16-parts-validation & `

#运行horovod应用程序 ` module load cuda/9.0 cudnn/7.0 mpiexec.hydra -f /work/00946/zzhang/maverick2/fanstore/test/hostfile -ppn 4  python3 keras_imagenet_resnet50_fanstore.py `

#在终止作业之前 ` for h in `cat ../test/hostfile`; do   ssh $h "rm -rf /tmp/data; mkdir /tmp/data; mkdir -p /tmp/amfora; rm /tmp/fuse-fanstore.log; fusermount -u /tmp/amfora"; done `

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java使用二进制搜索查找两个排序数组的所有公共元素   java应用程序在POJO之间不能有重复的代码块   java为什么私有构造函数可以工作而私有Setter不能在SPRING DI IOC中工作   接收并返回两种类型之一的java函数   java在每个测试用例之后清除内存中的数据库   java如何从Android视频录制中实时捕获逐帧图像   Java数据类(多文件管理)   java如何利用selenium抓住网站的价值   java每周或每月更改日期   Azure Cosmos DB Java SDK支持Spring Boot 2.4。十、   java为什么SLF4不显示来自JUL FINER消息的调试消息?   JAVAutil。扫描仪如何在Java中使用扫描仪读取文本文件?   java Hibernate可以读取Hibernate的内容。cfg。但是仍然会给出错误?