训练优化 | AI算力 - AI Infrastructure & GPU Computing

📚 核心文章

详解 FP8 混合精度训练、MoE 专家并行、显存优化与通信优化策略。

从源码层面分析两种分布式训练框架的内存管理策略与通信模式差异。

梯度缩放、动态范围调整、数值稳定性保障的完整实践。

张量并行、流水线并行、数据并行的组合配置与性能调优。

微软分布式训练框架，ZeRO 优化器，3D 并行，offload 技术。

NVIDIA 大模型训练框架，张量并行与流水线并行。

PyTorch 原生分布式训练，Fully Sharded Data Parallel。

FP16/BF16/FP8，梯度缩放，数值稳定性。

梯度累积、检查点激活值重计算、CPU Offload。

AllReduce、AllGather、ReduceScatter 算法优化。