🎯 核心技术点

DeepSpeed

微软分布式训练框架,ZeRO 优化器,3D 并行,offload 技术。

Megatron-LM

NVIDIA 大模型训练框架,张量并行与流水线并行。

FSDP

PyTorch 原生分布式训练,Fully Sharded Data Parallel。

混合精度训练

FP16/BF16/FP8,梯度缩放,数值稳定性。

显存优化

梯度累积、检查点激活值重计算、CPU Offload。

通信优化

AllReduce、AllGather、ReduceScatter 算法优化。