🎯 核心技术点

NVLink & NVSwitch

GPU 间高速互联,单机 8 卡全互联架构,多机扩展方案。

InfiniBand

低延迟 RDMA 网络,Fat-Tree 拓扑设计,拥塞控制策略。

RoCE v2

以太网上的 RDMA,成本优化方案,与 IB 的对比选型。

NCCL

NVIDIA 集合通信库,Ring、Tree、CollNet 算法,调优参数。

GPUDirect

GPU 间直接通信,绕过 CPU,降低延迟与 CPU 开销。

集群监控

GPU 利用率、显存、温度、网络带宽、P2P 带宽监控。

🔧 实践工具

  • nccl-tests - NCCL 性能基准测试工具
  • ib_write_bw / ib_read_bw - InfiniBand 带宽测试
  • nvidia-smi - GPU 状态监控
  • dcgmi - 数据中心 GPU 管理工具

📖 推荐资源

  • NVIDIA NCCL 官方文档
  • InfiniBand 架构规范
  • 各大云厂商 GPU 集群最佳实践