📚 核心文章
🎯 核心技术点
DeepSpeed
微软分布式训练框架,ZeRO 优化器,3D 并行,offload 技术。
Megatron-LM
NVIDIA 大模型训练框架,张量并行与流水线并行。
FSDP
PyTorch 原生分布式训练,Fully Sharded Data Parallel。
混合精度训练
FP16/BF16/FP8,梯度缩放,数值稳定性。
显存优化
梯度累积、检查点激活值重计算、CPU Offload。
通信优化
AllReduce、AllGather、ReduceScatter 算法优化。