数据建模的基本流程 分布式数据处理的概念( 三 )


找出没有用到的参数以验证 DDP 是否应该通过遍历 autograd 图来检测未用到的参数 。
本地模型中的 Model Device Affinity 也能控制 DDP 的行为,尤其是当模型因为太大而需要跨越多个设备运行时,更是如此 。对于大型模型,模型的每一层可以放在不同的设备上,使用 Tensor.to(device) API 可以将中间输出从一个设备转移到另一个上 。DDP 也可以在多个模型上运行 。
当层(例如 BatchNorm)需要跟踪状态,例如运行方差和均值时,模型缓冲器(buffer)是非常必要的 。DDP 通过让 rank 为 0 的进程获得授权来支持模型缓冲器 。
核心梯度下降
开发过程中的主要工作就是梯度降低,它也是 DDP 中决定性能的关键步骤 。这个在 reducer.cpp 中的实现有 4 个主要的组成部分:构建 parameter-to-bucket map、安装 autograd 钩子,启动 bucket AllReduce 以及检测全局未用过的参数 。
Parameter-to-Bucket Mapping 已经对 DDP 的速度有了相当大的影响 。在每次反向传播中,tensor 从全部的参数梯度到 bucket 被复制,平均梯度在 AllReduce 之后又被复制回 tensor 。
Autograd Hook 是 DDP 反向传播的进入点 。在构造期间,DDP 遍历模型中的所有参数,找出每个参数的梯度累加器,并且为每个梯度累加器安装相同的 post-hook 函数 。当相应的梯度准备就绪时,梯度累加器会启用 post hook,并且当整个 bucket 准备好启动 AllReduce 操作时,DDP 会确定启用 。
Bucket Allreduce 是 DDP 中通信开销的主要来源 。默认情况下,bucket 的大小是 25MB 。
实验评估
研究者展示了使用专属 32-GPU 集群和共享权限时 PyTorch DDP 的评估结果,其中 GPU 部署在 4 台服务器,并通过迈络思 MT27700 ConnectX-4 100GB/s 的网卡连接 。每台服务器配有 8 个英伟达 Tesla V100 GPU 。
下图 5 展示了一台服务器上 8 个 GPU 的互连方式:

数据建模的基本流程 分布式数据处理的概念


接下来,研究者利用 ResNet50 和 BERT 这两个流行的模型度量了 PyTorch DDP 在每次迭代时的延迟和可扩展性,并且大多数实验使用随机生成的合成输入和标签,这对于比较每次迭代时的延迟来说足够了 。
延迟故障
【数据建模的基本流程 分布式数据处理的概念】为了验证通信重叠计算的有效性,下图 6 展示了 ResNet50 和 BERT 模型分别使用 NCCL 和 Gloo 反向传递时的延迟故障 。所有实现都用到了 4 台服务器上的 32 个 GPU 。

数据建模的基本流程 分布式数据处理的概念


结果显示,在 PyTorch DDP 训练时,反向传递是耗时最长的步骤,这是因为 AllReduce 通信(即是梯度同步)在这一过程中完成 。
Bucket 大小
bucket 大小是一个重要的配置选项 。根据经验,出于最大努力估计,bucket_cap_mb 的默认值是 25MB 。研究者使用两台机器上的 16 个 GPU 比较不同 bucket 大小下每次迭代的延迟 。另一个极端是在短时间内传递全部的梯度,结果如下图 7 所示 。

数据建模的基本流程 分布式数据处理的概念


下图 8 给出了相同设置下、32 个 GPU 上的实验结果 。在这种情况下,离群值(outlier)的跨度更大,这并不意外 。因为在有更多参与者的情况下,同步必然要花费更长的时间,并且 strangler 的影响更明显 。

数据建模的基本流程 分布式数据处理的概念


可扩展性
为了理解 DDP 的可扩展性,研究者用多达 256 个 GPU 上的 NCCL 和 Gloo 后端来度量 ResNet50 和 BERT 每次迭代的训练延迟 。结果如下图 9 所示 。

推荐阅读