GRU网络的Spark PyTorch实施分布式培训

2024-10-03 06:25:37 发布

您现在位置:Python中文网/ 问答频道 /正文

我在PyTorch中实现了一个基于GRU的网络,我使用笔记本电脑中的4GB GPU进行训练,显然这需要很多时间(1个历元4个小时以上)。我正在寻找如何将这种深度学习模式转变为在几个spark集群上进行培训的想法/线索

到目前为止,我只遇到了这个名为SparkTorch的GitHub库,不幸的是,它的文档有限,提供的示例太琐碎了。 https://github.com/dmmiller612/sparktorch

总结一下,我正在寻找以下两个问题的答案:

  • 在spark clusters上训练深度学习模型是个好主意吗?因为我在一些地方读到,沟通开销会影响训练速度的提高
  • 如何转换PyTorch模型(以及底层数据集),以便跨工作节点执行分布式培训

任何线索感谢


Tags: 模型网络githubgpu时间模式集群pytorch