2024 年 3 月,NVIDIA 发布了 Blackwell 架构,B200 芯片即将在 2025 年大规模出货。
作为 AI Infra 从业者,我们最关心的是:B200 会给我们的工作带来什么变化?
一、B200 核心参数
与 H100/H200 对比
| 参数 | H100 | H200 | B200 |
|---|---|---|---|
| FP8 Tensor Core | 1979 TFLOPS | 1979 TFLOPS | 4500 TFLOPS |
| FP4 Tensor Core | - | - | 9000 TFLOPS |
| HBM 容量 | 80GB | 141GB | 192GB |
| TDP | 700W | 700W | 1000W |
| NVLink 带宽 | 900 GB/s | 900 GB/s | 1800 GB/s |
关键提升
- 算力翻倍:FP8 性能 2.3x 提升
- 首次支持 FP4:9000 TFLOPS
- 显存大增:192GB HBM3e
- 功耗警告:TDP 1000W
二、FP4 训练可行吗?
FP4 格式限制:
- 动态范围仅 ±4
- 精度约 0.5
- 梯度下溢严重
结论:FP4 更适合推理,训练建议先用 FP8。
三、成本影响分析
TCO 对比(3年,1024卡集群)
| 成本项 | H100 集群 | B200 集群 | 差异 |
|---|---|---|---|
| 硬件采购 | 25.6M | 41M | +60% |
| 电力(3年) | 1.9M | 2.7M | +43% |
| 散热改造 | 0 | 3M | 新增 |
| 总计 | 27.5M | 47.7M | +74% |
四、选型建议
适合:
- ✅ 预算充足的大厂
- ✅ 400B+ 超大模型
- ✅ 已有液冷基础设施
不适合:
- ❌ 预算有限的创业公司
- ❌ 现有风冷数据中心
- ❌ 中小型模型(< 100B)
总结
B200 很好,但不是所有场景都需要。2025 年 H100 仍是性价比之选,B200 适合预算充足、追求极致性能的场景。
你怎么看 B200?会第一时间上吗?