下图 10 给出了每 1、2、4 和 8 次迭代进行梯度下降时每次迭代的平均延迟 。
除了每次迭代延迟,测量收敛速度以验证加速度是否会因收敛放缓而被消除也非常关键 。实验采用 MNIST 数据集来训练 ResNet 。学习率设置为 0.02,批处理大小是 8 。结果如下图 11(a)所示;图 11(b)是将批处理大小设为 256,学习率设为 0.06 的测量结果 。
循环分配(Round-Robin)进程组
PyTorch 分布式包支持将 Round-Robin 进程组和多个 NCCL 或 Gloo 进程组组合在一起,从而按照 Robin-Robin 顺序向各个进程组实例分配聚合通信 。
下图 12 展示了使用 1、3 和 5 个 NCCL 或 Gloo 进程组的 Round-Robin 进程组每次迭代的延迟 。最显著的加速是使用 NCCL 后端的 BERT 模型 。
推荐阅读
- 与人沟通的技巧和方法 有效的沟通技巧的好处
- 安装ae的详细步骤 常用的ae快捷键大全
- 国外邮箱注册的条件 国外邮箱格式怎么写
- 种水果我推荐“苹果”
- 吃鹅蛋真的可以去“胎毒”吗
- 鹅蛋多吃健康吗
- 鹅蛋和鸡蛋营养价值的区别
- 肉馅里面打水的方法和步骤
- 焦虑症和抑郁症如何造成的
- 月经不干净为什么