流水线并行处理可以加快AI模型的训练速度,因为它将庞大的模型分解为多个GPU来处理,就像流水线一样进行数据处理。这样一来,就没有哪一台设备需要存储整个模型了。
这门课程从零开始教授流水线并行处理技术,逐步构建分布式训练系统。从简单的单体MLP模型开始,你将学习如何手动划分模型组件、实现分布式通信机制,并逐步掌握三种流水线调度方式:简单的前进后退式调度、GPipe算法以及1F1B算法。这门课程由Kian Kyars编写。
本课程包含以下章节:
– 引言、资源配置与课程大纲
– 第0步:单体模型的基础结构
– 第1步:手动划分模型组件
– 第2步:分布式通信机制
– 第3步:分布式Ping Pong实验
– 第4步:构建分片模型
– 第5步:主要的训练调度器
– 第6步a:简单的前进后退式调度
– 第6步b:GPipe算法与微批处理
– 第6步c:1F1B算法原理及计算方法的推导
– 第6步d:实施1F1B算法与异步发送数据