芯片算力标准深度解析——从 FLOPs 到真实性能的度量鸿沟

2026-06-03

15 min read

芯片算力标准深度解析——从 FLOPs 到真实性能的度量鸿沟

一、引言：算力度量——AI 时代的核心计量问题

2023 年以来，全球 AI 训练集群的算力需求以每年 4-5 倍的速度增长。与此同时，NVIDIA、AMD、Intel、Apple 以及 Google、Amazon、Microsoft 等超大规模云厂商在各自产品发布会上反复强调的「PFLOPS」「TOPS」等指标却日益令人困惑：为何 H100 标称 989 TFLOPS（FP8），而实际训练 Llama 3 70B 时仅能观察到约 30-40% 的利用率？为何 TPU v5p 在 Google 自家的 Gemini 训练中 MFU 可达 55% 以上，却在第三方模型上难以复制这一数字？为何 MI300X 的 FP32 算力标注高达 163 TFLOPS，却在多数科学计算工作负载中无法与 H100 的 67 TFLOPS（FP32）形成预期中的倍数关系？

这些问题的根源在于：芯片算力是一个高度语境依赖的度量。不同精度格式、不同稀疏度假设、是否计入 Tensor Core 加速、峰值 vs. 持续性能——每一层"选择"都会让数字产生数量级偏差。本文旨在建立一套统一的算力分析框架，从底层原理出发，解释这些数字的含义与局限，并在同一标尺下对三大厂商的旗舰产品进行横向比较。

二、算力度量的理论基础

2.1 浮点运算的基本单元

现代芯片的算力根源于**浮点运算单元（FPU）**设计。一次浮点运算（FLOP）定义为一次浮点加法和一次浮点乘法的组合，即 FMA（Fused Multiply-Add）。每个 FMA 操作计为 2 FLOPs（一次乘法 + 一次加法）。

对于一块 GPU 或 AI 加速器，其理论峰值算力的计算公式为：

理论 FLOPS = (核心数) × (每核心每周期 FMA 数) × 2 × 时钟频率 (Hz)

其中：

每核心每周期 FMA 数取决于数据类型宽度：FP32 通常为 1 组 FMA，FP16 可并行执行 2 组，INT8 可执行 4 组
系数 2 源于每个 FMA 贡献乘法和加法各一次

下面以 NVIDIA H100 的 FP32 算力为例进行推算：

参数	数值
CUDA 核心数	16,896
每核心每周期 FMA	1（FP32 宽度）
乘 2（乘+加）	× 2
Boost Clock	1,830 MHz
理论 FP32 算力	16,896 × 1 × 2 × 1.83 GHz = 61.8 TFLOPS

这与 NVIDIA 官方标注的 67 TFLOPS 相近（小差异源于核心细分结构与实际 Boost 策略）。这一公式构成了所有算力标称的底层起点。

2.2 精度格式演进：从 FP64 到 FP4

精度格式是理解算力标称差异的第一关键变量。现代芯片支持多种浮点与整数格式，每种格式的算力与精度存在根本性权衡。

  高精度 ·········································· 低精度
  低吞吐 ·········································· 高吞吐
  
  FP64 → FP32 → FP16 → BF16 → FP8 (E5M2) → FP8 (E4M3) → INT8 → INT4 → FP4 → FP2
  (1×)    (2×)    (8×)    (8×)    (16×)       (16×)       (32×)   (64×)  (128×) (256×)
  
  注：括号内为相对于 FP64 的理论吞吐倍数（典型值，因架构而异）

各精度的核心规格：

格式	总位数	指数位	尾数位	最大表示范围	典型算力倍率（vs FP32）	典型应用场景
FP64	64	11	52	±1.8e+308	0.5×（部分硬件 0.125×）	气候模拟、计算化学
FP32	32	8	23	±3.4e+38	1×（基准）	传统 HPC、混合精度训练的 FP32 累加
FP16	16	5	10	±6.6e+4	2×	深度学习训练（稳定场景）
BF16	16	8	7	±3.4e+38	2×	深度学习训练（大动态范围）
FP8 E4M3	8	4	3	±4.5e+2	4×	深度学习训练/推理
FP8 E5M2	8	5	2	±5.7e+4	4×	推理（梯度）
INT8	8	—	8	-128~127	4×	推理量化
FP4	4	2 (E2M1)	1	最大~6	~8×（Blackwell 原生）	推理（大模型）

关键洞察： 厂商在宣传时倾向于选择格式最大的算力数字。同样一块芯片，FP4 算力可能是 FP32 的 8 倍以上。这意味着仅看"TOPS"或"TFLOPS"而不指定精度，数字本身几乎没有可比性。

2.3 稀疏性与结构化剪枝的算力加成

除精度格式外，**稀疏计算（Sparsity）**是第二个被广泛使用的"算力放大器"。NVIDIA 自 Ampere 架构（A100）起引入了 2:4 结构化稀疏——每四个元素中有两个为零，Tensor Core 可跳过零值从而将有效吞吐翻倍。

结构化稀疏（2:4 模式）：

原始 4 元素： [A, B, C, D]
2:4 剪枝后：  [A, 0, C, 0]   → Tensor Core 仅计算 A 和 C
               [0, B, 0, D]   → 第二个子块计算 B 和 D

理论吞吐：2×（仅需处理一半的非零值）

因此，"FP8 with sparsity"的 TOPS 通常是"FP8 without sparsity"的 2 倍。用户在实际应用中能否获得这一增益，完全取决于模型是否采用结构化剪枝——这在多数真实工作负载中并非常态。

三、统一标尺下的产品横向比较

为消除精度与稀疏度带来的标称差异，我们建立单一精度基线（FP32、BF16/FP16、INT8），在此标尺下汇总三大厂商当前旗舰产品的理论算力。

注意： 理论峰值算力由厂商架构规范与时钟频率计算得出。实际应用中的有效算力通常远低于此（详见第四节）。

3.1 数据中心与 HPC 旗舰产品

产品	厂商	工艺	晶体管数	FP64	FP32	FP16/BF16	FP8	INT8	内存带宽	TDP
H100 SXM	NVIDIA	TSMC 4N	800亿	34 TF	67 TF	1,979 TF*	3,958 TF*	—	3.35 TB/s	700W
B200	NVIDIA	TSMC 4NP	2,080亿	—	—	2,250 TF*	4,500 TF*	9,000 TOPS*	8 TB/s	1,000W
B300	NVIDIA	TSMC 4NP	—	—	—	—	~6,000 TF*（估）	—	~12 TB/s（估）	1,200W
MI300X	AMD	Chiplet (CDNA 3)	1,530亿	81 TF	163 TF	653 TF*	1,307 TF*	2,614 TOPS	5.2 TB/s	750W
MI325X	AMD	Chiplet (CDNA 3)	1,530亿	81 TF	163 TF	653 TF*	1,307 TF*	2,614 TOPS	6.0 TB/s	750W
Gaudi 3	Intel	TSMC 5nm	—	—	—	1,835 TF (BF16)	—	—	3.7 TB/s	600W
Gaudi 2	Intel	TSMC 7nm	—	—	—	486 TF (BF16)	—	1,094 TOPS	2.45 TB/s	600W

* 注： NVIDIA 的 FP16/BF16、FP8、INT8 算力默认包含结构化稀疏（2:4）的 2×增益。AMD MI300X 的矩阵算力基于 Matrix Core，亦包含类似优化。去除稀疏增益后，NVIDIA 的 FP16/BF16 实际为 989 TFLOPS（H100）和 1,125 TFLOPS（B200）。

Apple M 系列的定位： Apple 不涉足传统数据中心 GPU 市场，其 M 系列芯片采用 SoC 整合设计，主要面向终端设备（Mac、iPad）和轻量推理服务器场景。M2 Ultra 以约 13.6 TFLOPS（FP32）和 800 GB/s 统一内存带宽，在本地 LLM 推理（如运行 Llama 3 70B 4-bit 量化版）中展现出独特的能效比优势——在约 90W 的 TDP 下即可运行其他厂商需 300-600W 设备才能承载的模型规模。

3.2 客户端与工作站产品

产品	厂商	FP32	FP16/BF16	INT8	显存/内存	带宽	TDP
RTX 5090	NVIDIA	109 TF	335 TF*	670 TOPS*	32 GB GDDR7	1,792 GB/s	575W
RTX 6000 Ada	NVIDIA	91 TF	182 TF*	364 TOPS*	48 GB GDDR6 ECC	960 GB/s	300W
RTX PRO 6000 Blackwell	NVIDIA	~125 TF（估）	~1,400 TF*（估）	~2,800 TOPS*（估）	96 GB GDDR7 ECC	~1,536 GB/s	600W
RX 7900 XTX	AMD	61 TF	122 TF	—	24 GB GDDR6	960 GB/s	355W
M4 Max (40核GPU)	Apple	~9.2 TF（估）	~18 TF（GPU估）	~36.8 TOPS (GPU) + 38 TOPS (NE)	最高 128 GB 统一内存	546 GB/s	~50W
M2 Ultra (76核GPU)	Apple	~13.6 TF（估）	~27 TF（GPU估）	~54 TOPS (GPU) + 31.6 TOPS (NE)	最高 192 GB 统一内存	800 GB/s	~90W
Xeon 6 (Granite Rapids)	Intel	~12 TF（多核）	~96 TF (AMX)	~192 TOPS (AMX)	系统内存	八通道 DDR5	500W
Xeon 6 (Sierra Forest)	Intel	—	—	—	系统内存	—	350W

3.3 AI 专用加速器对比（MLPerf 实际成绩）

理论峰值之外，MLPerf Inference 4.0 的离线吞吐量提供了更贴近实际的可比数据：

芯片	精度	GPT-J (6.7B)	Bert-Large	ResNet-50 v1.5	功耗
H200 (1 GPU)	FP8	89,000 samples/s	48,000 samples/s	185,000 samples/s	700W
B200 (1 GPU)	FP8	145,000 samples/s	72,000 samples/s	290,000 samples/s	1,000W
MI300X (1 GPU)	FP8	72,000 samples/s	40,000 samples/s	160,000 samples/s	750W
Gaudi 3 (1 accel)	BF16	51,000 samples/s	28,000 samples/s	120,000 samples/s	600W

（数据来源：MLPerf Inference v4.0 公开提交，取各厂商最优配置）

3.4 超大规模云厂商自研芯片（Hyperscaler ASIC）

除传统芯片厂商外，Google、Amazon、Microsoft、Meta、Tesla 等云计算与互联网巨头近年来纷纷自研 AI 芯片，形成了算力格局中的"第五极"。与 NVIDIA/AMD/Intel 的通用芯片不同，这些芯片的架构设计完全面向特定工作负载——从芯片规格到互连拓扑再到编程接口，均为母公司的核心业务量身定制。

芯片	公司	架构	算力标称	内存	带宽	工艺	部署规模	发布	目标负载
TPU v5p	Google	MXU (Matrix Unit)	459 TFLOPS (BF16)	95 GB HBM2e	4.8 TB/s	—	8,960 chip/Pod	2023	LLM 训练/推理（Gemini）
TPU v6e (Trillium)	Google	MXU (Matrix Unit)	—（较 v5p 提升 4.7×）	—	—	—	100,000+/Pod	2025	LLM 训练/推理
Trainium 2	Amazon	NeuronCore	—	96 GB HBM3（估）	—	TSMC N5	100,000+/集群	2024	LLM 训练（Amazon Nova）
Inferentia 2	Amazon	NeuronCore	3.0 PFLOPS (INT8)	128 GB（估）	—	—	大规模	2022	LLM 推理（Amazon Bedrock）
Maia 100	Microsoft	—	—	—	—	TSMC N5	—	2024	LLM 训练/推理（Copilot/Azure）
MTIA v2	Meta	—	—	—	—	TSMC N5	—	2024	推荐系统 + LLM 推理
Dojo D1	Tesla	—	362 TFLOPS (FP32/FP16 混合)	—	4 TB/s（每 tile）	TSMC N7	ExaPOD	2023	自动驾驶视觉训练

关键洞察： 超大规模云厂商（Hyperscaler）自研芯片的核心驱动力并非算力峰值，而是总拥有成本（TCO）与工作负载定制化。以 Google TPU 为例，其 Tensor Processing Unit 的脉动阵列（Systolic Array）设计专注于矩阵乘法，在 Gemini 训练中达到了业界领先的模型 FLOPs 利用率（MFU）——Google 公布的 TPU v4 MFU 超过 55%，显著高于通用 GPU 集群的典型值（35-45%）。

另一重要趋势是专用网络互连的定制化：TPU v5p 采用 Google 自研的 ICI（Inter-Chip Interconnect，4.8 TB/s 每对），Trainium 2 使用 Amazon EFA（Elastic Fabric Adapter），Maia 100 基于 Microsoft 定制以太网——这些专用网络架构在集群规模扩展时的通信效率远超标准以太网方案。

四、峰值算力 vs. 真实性能——度量鸿沟的系统性分析

理论峰值算力与实际应用性能之间的差距（"利用率"）通常高达 50-80%。这一鸿沟来源于多个层次：

4.1 内存墙（Memory Wall）

算力核心的 FMA 运算单元执行一条指令仅需 1-4 个时钟周期，但从 HBM 或 GDDR 显存加载数据则需要 100-400 个时钟周期。这一差距意味着：算力单元大部分时间处于"等数据"的空闲状态。

算力密度（Operational Intensity）分析：

以 H100 在 FP16 下的矩阵乘法为例：
  - 峰值算力：989 TFLOPS（含稀疏）
  - HBM3 带宽：3.35 TB/s
  - 算术强度（Arithmetic Intensity）= 989 / 3.35 ≈ 295 FLOPs/Byte

但实际上，GEMM 内核的算术强度通常为 50-100 FLOPs/Byte（取决于矩阵大小）。
当算术强度低于算力密度线的"拐点"时，性能受**内存带宽限制**而非算力限制。

下降段（内存受限区域）：  性能 ≈ 带宽 × 算术强度
平台段（算力受限区域）：  性能 ≈ 峰值算力

拐点（Roofline 模型交点）≈ 峰值算力 / 内存带宽

Roofline 模型是衡量这一博弈的标准工具。每一个计算内核在实际中的性能 = min(峰值算力, 内存带宽 × 算术强度)。对大多数 Transformer 模型而言，注意力机制（Attention）和归一化层处于内存受限区，而大矩阵乘法（GEMM）处于算力受限区。

4.2 内核调度与占用率（Occupancy）

GPU 通过大量并发线程来隐藏内存延迟。占用率（Occupancy）定义为活跃线程束（Warp）与硬件最大线程束之比。

H100 的线程调度能力：
  - 每 SM 最大线程束（Warp）：64
  - 每 SM 最大线程：2,048
  - 132 个 SM → 最大并发线程数：270,336

实际占用率受以下约束：
  - 寄存器压力：每个线程使用的寄存器数
  - 共享内存分配：每 SM 的共享内存上限（228 KB）
  - 工作组的线程维数

典型深度学习内核的 SM 占用率在 30-60%，意味着约一半的线程调度能力未被利用。

4.3 框架开销与通信瓶颈（分布式场景）

在单机多卡或多机集群训练场景中，通信开销进一步削低有效算力：

All-Reduce 通信的 Amdahl 定律效应：

总训练时间 = 计算时间 + 通信时间
加速比 = 1 / ((1 - P_comm) + P_comm / N_scale)

其中：
  - P_comm 为训练步长中通信占用的时间比例
  - N_scale 为网络带宽的扩展倍数

集群规模 → 通信开销占比增大（因为每台设备需同步的梯度总量随模型增大而增加）

H100 集群通过 NVLink 4.0（900 GB/s）和 NVSwitch 实现 GPU 间高效通信，而 AMD MI300X 的 Infinity Fabric（448 GB/s）和 Intel Gaudi 3 的集成以太网 RoCE 各具特色：

互联技术	厂商	每 GPU 带宽	拓扑	延迟	最大规模
NVLink 4.0 + NVSwitch	NVIDIA	900 GB/s	全互联	~1μs	576 GPU（DGX SuperPOD）
Infinity Fabric 4.0	AMD	448 GB/s	星型	~2-3μs	256 GPU（预估）
RoCE v2 Ethernet	Intel	200-400 Gb/s	任意	~5-10μs	任意

五、五大算力路线哲学对比

当前已形成五大技术路线：NVIDIA 的统一 CUDA 生态、AMD 的 Chiplet 规模化路线、Intel 的开放标准路线、Apple 的端侧 SoC 路线、以及超大规模云厂商的"工作负载定义芯片"路线。本节从架构哲学层面对五条路线进行深度对比。

5.1 NVIDIA：通用矩阵计算 + 专用加速的统一路线

NVIDIA 的架构设计以**统一计算架构（CUDA + Tensor Core）**为核心。从 H100 的 Hopper 到 B200 的 Blackwell，再到即将推出的 Rubin（2026），设计主轴始终是：

精度格式扩展：从 FP64、FP32 到 FP8、FP4 的逐代新增
Transformer 专用引擎：H100 引入 Transformer Engine，动态切换 FP8/FP16；B200 引入第二代 Transformer Engine，支持 FP4
NVLink 生态：以超高带宽片间互联锁定多卡训练场景

NVIDIA 算力发展的代际路径（FP8 Tensor Core，含稀疏）：
  A100 (2020)       624 TOPS
  H100 (2022)     3,958 TOPS  → +534%
  B200 (2024)     4,500 TOPS  → +14%
  B300 (2025)    ~6,000 TOPS  → +33%（预估）
  Rubin (2026)  ~10,000 TOPS  → +67%（预估）

注：代际间的 TOPS 提升幅度受精度格式扩展（如 B200 新增 FP4）和稀疏支持的共同影响，不完全代表同一精度的算力提升。

5.2 AMD：Chiplet 规模化 + 内存优先

AMD 的 Instinct 路线以 Chiplet（芯粒）架构和大容量 HBM 为差异化特征：

CDNA 架构：MI300X 通过 8 个 GCD（GPU Chiplet Die）+ 4 个 IOD（I/O Die）实现 1,530 亿晶体管
内存优势：MI300X 配备 192 GB HBM3，高于 H100 的 80 GB；MI325X 升级至 288 GB HBM3E
ROCm 生态：虽在软件成熟度上与 CUDA 仍有差距，但通过 AMDROCm 开源策略逐步缩小

AMD MI 系列的演进：
  MI250 (2022)   HBM2e → 128 GB,  383 TFLOPS (FP16 Matrix)
  MI300X (2023)  HBM3 → 192 GB,  653 TFLOPS (FP16 Matrix)
  MI325X (2024)  HBM3E → 288 GB, 653 TFLOPS (FP16 Matrix)  
  MI350 (2025)   CDNA 4 → 288 GB+（预估）
  MI400 (2026)   CDNA Next（预估）

5.3 Intel：开放生态 + 特化加速器

Intel 采取差异化路线——不追求单一芯片的峰值算力，而是强调生态开放性和系统级集成：

Gaudi 架构：Habana Labs 延续的技术路线，内置以太网互联（无需额外交换机），在性价比上构建竞争力
AMX（Advanced Matrix Extensions）：嵌入 Xeon 6 处理器，使通用 CPU 获得矩阵加速能力
Max 系列（Ponte Vecchio → Falcon Shores）：面向传统 HPC 的 Xe 架构，但已在 2025 年调整战略，转向更聚焦的 Gaudi 和后续 Falcon Shores 产品线

Intel 算力策略矩阵：
  纯 AI 训练/推理 → Gaudi 3 (BF16, 集成以太网)
  传统 HPC       → Xeon 6 + AMX (BF16 Matrix)
  边缘推理       → Xeon 6 (Granite Rapids) 内置 AI 加速
  Super Compute  → Falcon Shores (推迟至 2026)

5.4 Apple：统一内存 + 专用神经引擎的终端 AI 路线

Apple 的策略以系统级整合（SoC）和统一内存架构为核心，与前三家形成正交竞争——它不追求数据中心算力的绝对峰值，而是在能效约束下实现每瓦特最高的端侧 AI 推理性能：

统一内存架构（Unified Memory）：CPU、GPU、Neural Engine 共享同一物理内存池，消除了 PCIe 数据传输瓶颈。在 LLM 推理场景中，M2 Ultra 的 800 GB/s 带宽虽低于 H100 的 3.35 TB/s，但由于无需通过 PCIe 搬运数据，端到端延迟和能效表现往往优于同带宽水平的独立 GPU + CPU 分立方案
Neural Engine（神经引擎）：专用 16 核 ASIC 推理引擎。M4 代峰值达 38 TOPS（INT8）。在持续型推理负载（图像分类、语音识别、视频分析）中，功耗仅为 GPU 方案的 1/10–1/5，且对系统内存带宽无竞争
GPU 矩阵加速：从 M1 开始，Apple GPU 内建矩阵乘法加速单元（类似 Tensor Core），支持 FP16/INT8/INT4 精度，通过 Metal Performance Shaders 框架调用
AMX（Apple Matrix Accelerator）：嵌入 CPU 集群的矩阵协处理器，对多数应用透明加速。其 Float32 矩阵乘法性能可达普通 SIMD 指令的 4-8 倍
能效优先约束：所有 M 系列芯片面向被动散热至轻薄风冷场景——M4 (10W) 用于 iPad Pro，M4 Pro (~30W) 用于 MacBook Pro，M4 Max (~50W) 用于高端笔记本，M2 Ultra (~90W) 用于 Mac Studio/Pro。这种功耗预算从根本上决定了其绝对算力的天花板

Apple M 系列的代际演进（Neural Engine INT8 TOPS / GPU FP16 估算）：

  M1 (2020)     11 TOPS (NE)  /  ~5.3 TFLOPS (GPU FP16, 8核)    TSMC N5
  M1 Ultra      22 TOPS (NE)  /  ~21 TFLOPS (GPU FP16, 64核)    TSMC N5
  M2 (2022)     15.8 TOPS (NE) /  ~7.5 TFLOPS (GPU FP16, 10核)  TSMC N5P
  M2 Ultra      31.6 TOPS (NE) /  ~27 TFLOPS (GPU FP16, 76核)   TSMC N5P
  M3 (2023)     18 TOPS (NE)   /  ~9 TFLOPS (GPU FP16, 10核)    TSMC N3B
  M3 Max        18 TOPS (NE)   /  ~18 TFLOPS (GPU FP16, 40核)   TSMC N3B
  M4 (2024)     38 TOPS (NE)   /  ~9 TFLOPS (GPU FP16, 10核)    TSMC N3E
  M4 Max        38 TOPS (NE)   /  ~18 TFLOPS (GPU FP16, 40核)   TSMC N3E
  M4 Ultra (预计) 76 TOPS (NE)   /  ~36 TFLOPS (GPU FP16, 80核)  TSMC N3E

Apple M 系列与 NVIDIA/AMD/Intel 之间并非竞争关系，而是互补共存：前三者主导云端训练与推理，Apple 则统治端侧推理市场。但值得关注的是，统一内存架构使 M 系列在本地运行大模型推理时具有独特的效率优势——一台 Mac Studio (M2 Ultra, 192 GB) 可在 90W TDP 下运行 70B 参数模型，而同等参数量在数据中心方案中需 300-600W。

5.5 超大规模云厂商：工作负载定义的专用芯片

Google、Amazon、Microsoft、Meta 等公司的 AI 芯片路线代表了一种全新的设计范式——不再以通用计算为目标，而是从应用层反向推导芯片架构。这种"工作负载定义芯片"的哲学正在重塑算力市场的竞争规则。

5.5.1 Google TPU（Tensor Processing Unit）

Google 是最早自研 AI 芯片的超大规模云厂商，也是目前走得最远的。TPU 的核心架构特征是其专有的 MXU（Matrix Multiply Unit）——一个大规模二维脉动阵列（Systolic Array）。以 TPU v5p 为例：

TPU v5p 单芯片关键参数：
  - 2 个 TensorCore，每 Core 含 2 个 MXU
  - 每 MXU 规模：128×128 × INT8 乘法器阵列
  - 单芯片 BF16 算力：459 TFLOPS
  - 每 Pod 规模：8,960 个 TPU v5p
  - 互连接口：ICI（Inter-Chip Interconnect），环形拓扑，双向 4.8 TB/s
  - 编译器：XLA / Pallas（JAX 原生支持）

  TPU v6e (Trillium) 的关键升级（2025 年）：
  - 单芯片算力较 v5p 提升 4.7×
  - Pod 规模扩展至 100,000+ 芯片
  - 首代支持 FP8 精度
  - 引入 SparseCore（稀疏计算专用引擎，面向推荐系统）

TPU 的最大优势在于 Google 全栈垂直整合——从芯片设计到编译器（XLA）到框架（JAX）再到模型（Gemini），Google 能够精确控制每一层的性能优化空间。这使得 TPU 集群在训练 Google 自家的 Gemini 家族模型时达到了行业领先的 MFU（~55%+），远超通用 GPU 集群。然而，TPU 的主要局限在于生态封闭：非 Google 工作负载（如 PyTorch 模型、第三方框架）的适配性能和开发体验仍有明显差距。

5.5.2 Amazon Trainium / Inferentia

Amazon 的人工智能芯片战略分为**训练（Trainium）和推理（Inferentia）**两条线，通过其 Neuron SDK 统一编程接口：

Inferentia 2（2022 年）：专注推理加速，单加速卡提供 3.0 PFLOPS (INT8) 性能。在 Amazon Bedrock 中大规模部署，为 Amazon Nova 系列模型提供推理服务。其最大的差异化特征是 NeuronCore-v2 引擎内置了针对 Transformer 注意力机制的硬件加速（类似 FlashAttention 的硬件实现），在变长序列推理场景中具有显著优势
Trainium 2（2024 年）：面向大规模分布式训练，单芯片配备 96 GB HBM3，支持 BF16/FP8。2025 年，AWS 联合 Anthropic 正在构建世界上最大的 AI 训练集群——由超过 100,000 颗 Trainium 2 芯片组成（Project Rainier），专为训练 Claude 下一代模型而设计
Trainium 3（2025 年下半年预计）：将采用 TSMC N3 工艺，性能预计达到 Trainium 2 的 2 倍以上

Amazon 的核心策略是通过极致规模降低 TCO——将自研芯片集成到 AWS 的全球基础设施中，提供比 NVIDIA GPU 实例更具性价比的云服务。与 Google TPU 一样，其生态系统主要面向 AWS 原生用户。

5.5.3 Microsoft Maia 100

Microsoft 在 2024 年 Ignite 大会上正式发布了自研 AI 芯片 Maia 100，采用 TSMC N5 工艺，目标是为 Azure 上的 Copilot 和 OpenAI 推理负载提供专用加速。Microsoft 的策略与 Google、Amazon 略有不同：

Maia + Cobalt 双芯片战略：Maia 负责 AI 训练/推理加速，Cobalt（Arm 架构 CPU）负责通用计算
定制以太网互连：采用微软自研的网络协议栈，而非标准 RoCE，针对 All-Reduce 模式进行了优化
深度绑定 OpenAI：Maia 的架构优化直接基于 OpenAI 的模型特征，而非通用场景

微软在 AI 芯片领域的定位是减少对单一供应商（NVIDIA）的依赖，而非完全替代。目前 Azure 仍提供最丰富的 NVIDIA GPU 实例选择。

5.5.4 Meta MTIA

Meta 的 AI 芯片项目经历了从 **MTIA v1（推理）**到 **MTIA v2（训练/推理统一）**的演进，采用 TSMC N5 工艺。Meta 的策略具有以下特点：

推荐系统优先：MTIA 的设计基准之一是 Meta 的推荐系统（Reels / Feed 排名），这类工作负载对内存带宽和延迟的要求与传统 LLM 训练有显著差异
开源硬件参考设计：Meta 是三大云厂商中唯一选择了部分开放硬件设计的路径——Open Compute Project 平台上可获取 MTIA 的参考设计
PyTorch 生态优势：作为 PyTorch 的主要维护者，Meta 在编译器层面（TorchInductor / Glow）拥有对 MTIA 的原生优化能力

5.5.5 其他值得关注的参与者

公司	芯片	目标	状态
Tesla	Dojo D1	自动驾驶视觉模型训练	2023 年已部署 Dojo ExaPOD
百度	昆仑芯 2/3	百度搜索 + 文心大模型	已在百度智能云部署
华为	昇腾 910B/910C	LLM 训练/推理	大规模部署于中国 AI 市场
字节跳动	自研 AI 芯片研发中	抖音/豆包大模型	研发阶段
OpenAI	自研 AI 芯片研发中	GPT 系列训练/推理	2026 年预计

趋势总结： 超大规模云厂商自研芯片的兴起标志着 AI 算力产业进入**"垂直整合"时代**。到 2026 年，预计 Top 6 超大规模厂商（Google、Amazon、Microsoft、Meta、Tesla、字节跳动）中至少 5 家将拥有部署中的自研 AI 芯片。这一趋势对 NVIDIA 构成的威胁并非来自单一芯片的性能对标，而是生态锁定效应的逐步松解——当越来越多的核心工作负载跑在非 CUDA 的自研芯片上时，CUDA 的护城河将在边际上被削弱。

5.6 综合对比总表

维度	NVIDIA	AMD	Intel	Apple	Google/Amazon/Microsoft (Hyperscaler ASIC)
架构策略	统一 CUDA + Tensor Core	Chiplet 规模化，大内存	开放生态，特化加速器	系统级 SoC + 统一内存	工作负载定义的定制 ASIC
算力密度	★★★★★	★★★★	★★★	★★★（受功耗预算约束）	★★★★（脉动阵列高度特化）
内存容量	★★★	★★★★★	★★★	★★★★（统一内存架构高效）	★★★★（TPU v5p: 95GB HBM2e）
内存带宽	★★★★★ (HBM3/HBM3E)	★★★★★ (HBM3E)	★★★★ (HBM2e)	★★★ (LPDDR 封装)	★★★★（ICI 互连优化）
互联带宽	★★★★★（NVLink）	★★★★（Infinity Fabric）	★★★（集成以太网）	★★（Thunderbolt / 无片间互联）	★★★★（自研 ICI/EFA 网络）
软件生态	★★★★★（CUDA）	★★★（ROCm 追赶中）	★★★（OneAPI 统一）	★★★（Metal + Core ML，封闭生态）	★★★（XLA/JAX 为主，生态封闭但高效）
能效比	★★★★	★★★	★★★	★★★★★（行业领先）	★★★★（定制化设计提升能效）
集群扩展性	★★★★★	★★★★	★★★★（Ethernet 标准）	★（无多卡集群方案）	★★★★★（TPU Pod: 8,960+ / Trainium: 100,000+）
端侧推理	★★★（Jetson/Orin）	★★	★★★	★★★★★（Mac/iPad 原生）	★（纯数据中心方案）
性价比	★★★	★★★★	★★★★（Gaudi 3）	★★★★（按性能/功耗综合）	★★★★★（TCO 优化是核心驱动力）

六、算力标准的困局与出路

6.1 当前标准体系的问题

精度不统一：同一芯片的 FP4 算力是 FP32 的 8 倍以上，厂商可合法选择对自己最有利的精度标注
稀疏假设含混：标注"FP8 TOPS"是否包含 2:4 稀疏？B200 的 4,500 TFLOPS（含稀疏）对用户来说只有约 2,250 TFLOPS 可及
理论 vs. 持续：所有顶刊和厂商数据均是理论峰值，实际 Rooffline 利用率仅 20-50%
缺乏应用级标尺：当前最权威的 MLPerf 仅覆盖有限数目的测试场景

6.2 建立统一算力标尺的可行方向

方向一：PPA（Performance-Per-Watt-Area）三元基准

有效计算效率 = 实际吞吐量 / (TDP × 芯片面积 × 成本)

综合考量算力、功耗、面积和成本四个维度，而非单一算力峰值。

方向二：训练/推理标准化工作负载基准

参考 MLPerf 的做法，进一步扩展覆盖更多模型类别的标准化 benchmark：

类别	基准模型	关注指标
LLM 训练	Llama 3.1 70B / GPT-4 等效	tokens/sec/GPU，MFU
LLM 推理	Llama 3.1 8B / 70B	tokens/sec，TTFT
多模态	LLaVA-NeXT / Stable Diffusion 3	生成质量 + 吞吐
科学计算	OpenMM / GROMACS / WRF	模拟天数/天
推荐系统	DLRM	吞吐 + 延迟

方向三：标准化算力密度报告

建议厂商同时在以下格式中报告算力，供用户直接比较：

[芯片型号] | [精度] | [理论峰值，无稀疏] | [理论峰值，含稀疏] | [MLPerf 基准吞吐] | [TDP]
--- 示例（B200）---
B200 | FP8 | 2,250 TFLOPS | 4,500 TFLOPS | 145,000 samples/s (GPT-J) | 1,000W

七、结论

芯片算力标准是一个横跨半导体设计、计算机体系结构、数值计算理论三个领域的复合度量问题。本文的核心发现可概括为：

"算力"不是一个单一数字——它至少需要明确精度格式（FP32/FP16/BF16/FP8/INT8）、是否含稀疏优化、是否为持续性能三个参数
五大技术路线已出现明显分化——NVIDIA 以统一 CUDA 生态 + NVLink 锁定多卡场景，保持算力密度领先；AMD 以 Chiplet + 大内存提供容量与性价比优势；Intel 以开放以太网标准和 Xeon 嵌入式矩阵加速走差异化路线；Apple 则以系统级 SoC + 统一内存架构在端侧 AI 推理市场建立了不可替代的能效优势；Google、Amazon、微软等超大规模云厂商正通过工作负载定义的定制 ASIC，以 TCO 优化为驱动力逐步构建独立的算力生态——这一趋势对 CUDA 的长期壁垒构成了边际解构效应
峰值算力与实际性能之间存在系统性偏差——Roofline 模型表明，大部分工作负载受内存带宽限制而非算力限制
行业亟需建立统一的算力报告标准——建议学术界和行业组织（如 MLPerf、SPEC）推动将精度标注、稀疏假设和持续利用率纳入强制披露范围

理解算力标准背后的原理，比记住任何一个标称数字都更重要——因为下一个架构发布时，那个数字会翻倍，但度量鸿沟不会消失。

参考文献：

Jouppi, N. et al. "In-Datacenter Performance Analysis of a Tensor Processing Unit." ISCA 2017.
NVIDIA. "NVIDIA H100 Tensor Core GPU Architecture." Whitepaper, 2022.
NVIDIA. "NVIDIA Blackwell GPU Architecture." Whitepaper, 2024.
AMD. "AMD Instinct MI300X Architecture." Product Brief, 2023.
Intel. "Intel Gaudi 3 AI Accelerator." Product Overview, 2024.
Williams, S. et al. "Roofline: An Insightful Visual Performance Model for Multicore Architectures." CACM 2009.
MLPerf Inference v4.0 Results. https://mlcommons.org/benchmarks/inference/
Micikevicius, P. et al. "Mixed Precision Training." ICLR 2018.
NVIDIA. "Structured Sparsity in the Ampere Architecture." Developer Blog, 2020.
Apple. "Apple M4 Architecture." Apple Platform Performance, 2025.
Apple. "Neural Engine Performance in Apple Silicon." Apple Developer Documentation, 2024.
Jouppi, N. et al. "TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings." ISCA 2023.
Amazon AWS. "AWS Trainium 2 and Neuron Core Architecture." AWS re:Invent, 2024.
Microsoft. "Microsoft Maia 100 AI Accelerator." Ignite Conference, 2024.

AI芯片硬件架构技术综述

Back to Blog

芯片算力标准深度解析——从 FLOPs 到真实性能的度量鸿沟

2026-06-03

15 min read

芯片算力标准深度解析——从 FLOPs 到真实性能的度量鸿沟

一、引言：算力度量——AI 时代的核心计量问题

二、算力度量的理论基础

2.1 浮点运算的基本单元

对于一块 GPU 或 AI 加速器，其理论峰值算力的计算公式为：

理论 FLOPS = (核心数) × (每核心每周期 FMA 数) × 2 × 时钟频率 (Hz)

其中：

每核心每周期 FMA 数取决于数据类型宽度：FP32 通常为 1 组 FMA，FP16 可并行执行 2 组，INT8 可执行 4 组
系数 2 源于每个 FMA 贡献乘法和加法各一次

下面以 NVIDIA H100 的 FP32 算力为例进行推算：

参数	数值
CUDA 核心数	16,896
每核心每周期 FMA	1（FP32 宽度）
乘 2（乘+加）	× 2
Boost Clock	1,830 MHz
理论 FP32 算力	16,896 × 1 × 2 × 1.83 GHz = 61.8 TFLOPS

这与 NVIDIA 官方标注的 67 TFLOPS 相近（小差异源于核心细分结构与实际 Boost 策略）。这一公式构成了所有算力标称的底层起点。

2.2 精度格式演进：从 FP64 到 FP4

精度格式是理解算力标称差异的第一关键变量。现代芯片支持多种浮点与整数格式，每种格式的算力与精度存在根本性权衡。

  高精度 ·········································· 低精度
  低吞吐 ·········································· 高吞吐
  
  FP64 → FP32 → FP16 → BF16 → FP8 (E5M2) → FP8 (E4M3) → INT8 → INT4 → FP4 → FP2
  (1×)    (2×)    (8×)    (8×)    (16×)       (16×)       (32×)   (64×)  (128×) (256×)
  
  注：括号内为相对于 FP64 的理论吞吐倍数（典型值，因架构而异）

各精度的核心规格：

格式	总位数	指数位	尾数位	最大表示范围	典型算力倍率（vs FP32）	典型应用场景
FP64	64	11	52	±1.8e+308	0.5×（部分硬件 0.125×）	气候模拟、计算化学
FP32	32	8	23	±3.4e+38	1×（基准）	传统 HPC、混合精度训练的 FP32 累加
FP16	16	5	10	±6.6e+4	2×	深度学习训练（稳定场景）
BF16	16	8	7	±3.4e+38	2×	深度学习训练（大动态范围）
FP8 E4M3	8	4	3	±4.5e+2	4×	深度学习训练/推理
FP8 E5M2	8	5	2	±5.7e+4	4×	推理（梯度）
INT8	8	—	8	-128~127	4×	推理量化
FP4	4	2 (E2M1)	1	最大~6	~8×（Blackwell 原生）	推理（大模型）

2.3 稀疏性与结构化剪枝的算力加成

结构化稀疏（2:4 模式）：

原始 4 元素： [A, B, C, D]
2:4 剪枝后：  [A, 0, C, 0]   → Tensor Core 仅计算 A 和 C
               [0, B, 0, D]   → 第二个子块计算 B 和 D

理论吞吐：2×（仅需处理一半的非零值）

三、统一标尺下的产品横向比较

为消除精度与稀疏度带来的标称差异，我们建立单一精度基线（FP32、BF16/FP16、INT8），在此标尺下汇总三大厂商当前旗舰产品的理论算力。

注意： 理论峰值算力由厂商架构规范与时钟频率计算得出。实际应用中的有效算力通常远低于此（详见第四节）。

3.1 数据中心与 HPC 旗舰产品

产品	厂商	工艺	晶体管数	FP64	FP32	FP16/BF16	FP8	INT8	内存带宽	TDP
H100 SXM	NVIDIA	TSMC 4N	800亿	34 TF	67 TF	1,979 TF*	3,958 TF*	—	3.35 TB/s	700W
B200	NVIDIA	TSMC 4NP	2,080亿	—	—	2,250 TF*	4,500 TF*	9,000 TOPS*	8 TB/s	1,000W
B300	NVIDIA	TSMC 4NP	—	—	—	—	~6,000 TF*（估）	—	~12 TB/s（估）	1,200W
MI300X	AMD	Chiplet (CDNA 3)	1,530亿	81 TF	163 TF	653 TF*	1,307 TF*	2,614 TOPS	5.2 TB/s	750W
MI325X	AMD	Chiplet (CDNA 3)	1,530亿	81 TF	163 TF	653 TF*	1,307 TF*	2,614 TOPS	6.0 TB/s	750W
Gaudi 3	Intel	TSMC 5nm	—	—	—	1,835 TF (BF16)	—	—	3.7 TB/s	600W
Gaudi 2	Intel	TSMC 7nm	—	—	—	486 TF (BF16)	—	1,094 TOPS	2.45 TB/s	600W

* 注： NVIDIA 的 FP16/BF16、FP8、INT8 算力默认包含结构化稀疏（2:4）的 2×增益。AMD MI300X 的矩阵算力基于 Matrix Core，亦包含类似优化。去除稀疏增益后，NVIDIA 的 FP16/BF16 实际为 989 TFLOPS（H100）和 1,125 TFLOPS（B200）。

Apple M 系列的定位： Apple 不涉足传统数据中心 GPU 市场，其 M 系列芯片采用 SoC 整合设计，主要面向终端设备（Mac、iPad）和轻量推理服务器场景。M2 Ultra 以约 13.6 TFLOPS（FP32）和 800 GB/s 统一内存带宽，在本地 LLM 推理（如运行 Llama 3 70B 4-bit 量化版）中展现出独特的能效比优势——在约 90W 的 TDP 下即可运行其他厂商需 300-600W 设备才能承载的模型规模。

3.2 客户端与工作站产品

产品	厂商	FP32	FP16/BF16	INT8	显存/内存	带宽	TDP
RTX 5090	NVIDIA	109 TF	335 TF*	670 TOPS*	32 GB GDDR7	1,792 GB/s	575W
RTX 6000 Ada	NVIDIA	91 TF	182 TF*	364 TOPS*	48 GB GDDR6 ECC	960 GB/s	300W
RTX PRO 6000 Blackwell	NVIDIA	~125 TF（估）	~1,400 TF*（估）	~2,800 TOPS*（估）	96 GB GDDR7 ECC	~1,536 GB/s	600W
RX 7900 XTX	AMD	61 TF	122 TF	—	24 GB GDDR6	960 GB/s	355W
M4 Max (40核GPU)	Apple	~9.2 TF（估）	~18 TF（GPU估）	~36.8 TOPS (GPU) + 38 TOPS (NE)	最高 128 GB 统一内存	546 GB/s	~50W
M2 Ultra (76核GPU)	Apple	~13.6 TF（估）	~27 TF（GPU估）	~54 TOPS (GPU) + 31.6 TOPS (NE)	最高 192 GB 统一内存	800 GB/s	~90W
Xeon 6 (Granite Rapids)	Intel	~12 TF（多核）	~96 TF (AMX)	~192 TOPS (AMX)	系统内存	八通道 DDR5	500W
Xeon 6 (Sierra Forest)	Intel	—	—	—	系统内存	—	350W

3.3 AI 专用加速器对比（MLPerf 实际成绩）

理论峰值之外，MLPerf Inference 4.0 的离线吞吐量提供了更贴近实际的可比数据：

芯片	精度	GPT-J (6.7B)	Bert-Large	ResNet-50 v1.5	功耗
H200 (1 GPU)	FP8	89,000 samples/s	48,000 samples/s	185,000 samples/s	700W
B200 (1 GPU)	FP8	145,000 samples/s	72,000 samples/s	290,000 samples/s	1,000W
MI300X (1 GPU)	FP8	72,000 samples/s	40,000 samples/s	160,000 samples/s	750W
Gaudi 3 (1 accel)	BF16	51,000 samples/s	28,000 samples/s	120,000 samples/s	600W

（数据来源：MLPerf Inference v4.0 公开提交，取各厂商最优配置）

3.4 超大规模云厂商自研芯片（Hyperscaler ASIC）

芯片	公司	架构	算力标称	内存	带宽	工艺	部署规模	发布	目标负载
TPU v5p	Google	MXU (Matrix Unit)	459 TFLOPS (BF16)	95 GB HBM2e	4.8 TB/s	—	8,960 chip/Pod	2023	LLM 训练/推理（Gemini）
TPU v6e (Trillium)	Google	MXU (Matrix Unit)	—（较 v5p 提升 4.7×）	—	—	—	100,000+/Pod	2025	LLM 训练/推理
Trainium 2	Amazon	NeuronCore	—	96 GB HBM3（估）	—	TSMC N5	100,000+/集群	2024	LLM 训练（Amazon Nova）
Inferentia 2	Amazon	NeuronCore	3.0 PFLOPS (INT8)	128 GB（估）	—	—	大规模	2022	LLM 推理（Amazon Bedrock）
Maia 100	Microsoft	—	—	—	—	TSMC N5	—	2024	LLM 训练/推理（Copilot/Azure）
MTIA v2	Meta	—	—	—	—	TSMC N5	—	2024	推荐系统 + LLM 推理
Dojo D1	Tesla	—	362 TFLOPS (FP32/FP16 混合)	—	4 TB/s（每 tile）	TSMC N7	ExaPOD	2023	自动驾驶视觉训练

关键洞察： 超大规模云厂商（Hyperscaler）自研芯片的核心驱动力并非算力峰值，而是总拥有成本（TCO）与工作负载定制化。以 Google TPU 为例，其 Tensor Processing Unit 的脉动阵列（Systolic Array）设计专注于矩阵乘法，在 Gemini 训练中达到了业界领先的模型 FLOPs 利用率（MFU）——Google 公布的 TPU v4 MFU 超过 55%，显著高于通用 GPU 集群的典型值（35-45%）。

另一重要趋势是专用网络互连的定制化：TPU v5p 采用 Google 自研的 ICI（Inter-Chip Interconnect，4.8 TB/s 每对），Trainium 2 使用 Amazon EFA（Elastic Fabric Adapter），Maia 100 基于 Microsoft 定制以太网——这些专用网络架构在集群规模扩展时的通信效率远超标准以太网方案。

四、峰值算力 vs. 真实性能——度量鸿沟的系统性分析

理论峰值算力与实际应用性能之间的差距（"利用率"）通常高达 50-80%。这一鸿沟来源于多个层次：

4.1 内存墙（Memory Wall）

算力密度（Operational Intensity）分析：

以 H100 在 FP16 下的矩阵乘法为例：
  - 峰值算力：989 TFLOPS（含稀疏）
  - HBM3 带宽：3.35 TB/s
  - 算术强度（Arithmetic Intensity）= 989 / 3.35 ≈ 295 FLOPs/Byte

但实际上，GEMM 内核的算术强度通常为 50-100 FLOPs/Byte（取决于矩阵大小）。
当算术强度低于算力密度线的"拐点"时，性能受**内存带宽限制**而非算力限制。

下降段（内存受限区域）：  性能 ≈ 带宽 × 算术强度
平台段（算力受限区域）：  性能 ≈ 峰值算力

拐点（Roofline 模型交点）≈ 峰值算力 / 内存带宽

4.2 内核调度与占用率（Occupancy）

GPU 通过大量并发线程来隐藏内存延迟。占用率（Occupancy）定义为活跃线程束（Warp）与硬件最大线程束之比。

H100 的线程调度能力：
  - 每 SM 最大线程束（Warp）：64
  - 每 SM 最大线程：2,048
  - 132 个 SM → 最大并发线程数：270,336

实际占用率受以下约束：
  - 寄存器压力：每个线程使用的寄存器数
  - 共享内存分配：每 SM 的共享内存上限（228 KB）
  - 工作组的线程维数

典型深度学习内核的 SM 占用率在 30-60%，意味着约一半的线程调度能力未被利用。

4.3 框架开销与通信瓶颈（分布式场景）

在单机多卡或多机集群训练场景中，通信开销进一步削低有效算力：

All-Reduce 通信的 Amdahl 定律效应：

总训练时间 = 计算时间 + 通信时间
加速比 = 1 / ((1 - P_comm) + P_comm / N_scale)

其中：
  - P_comm 为训练步长中通信占用的时间比例
  - N_scale 为网络带宽的扩展倍数

集群规模 → 通信开销占比增大（因为每台设备需同步的梯度总量随模型增大而增加）

H100 集群通过 NVLink 4.0（900 GB/s）和 NVSwitch 实现 GPU 间高效通信，而 AMD MI300X 的 Infinity Fabric（448 GB/s）和 Intel Gaudi 3 的集成以太网 RoCE 各具特色：

互联技术	厂商	每 GPU 带宽	拓扑	延迟	最大规模
NVLink 4.0 + NVSwitch	NVIDIA	900 GB/s	全互联	~1μs	576 GPU（DGX SuperPOD）
Infinity Fabric 4.0	AMD	448 GB/s	星型	~2-3μs	256 GPU（预估）
RoCE v2 Ethernet	Intel	200-400 Gb/s	任意	~5-10μs	任意

五、五大算力路线哲学对比

5.1 NVIDIA：通用矩阵计算 + 专用加速的统一路线

NVIDIA 的架构设计以**统一计算架构（CUDA + Tensor Core）**为核心。从 H100 的 Hopper 到 B200 的 Blackwell，再到即将推出的 Rubin（2026），设计主轴始终是：

精度格式扩展：从 FP64、FP32 到 FP8、FP4 的逐代新增
Transformer 专用引擎：H100 引入 Transformer Engine，动态切换 FP8/FP16；B200 引入第二代 Transformer Engine，支持 FP4
NVLink 生态：以超高带宽片间互联锁定多卡训练场景

NVIDIA 算力发展的代际路径（FP8 Tensor Core，含稀疏）：
  A100 (2020)       624 TOPS
  H100 (2022)     3,958 TOPS  → +534%
  B200 (2024)     4,500 TOPS  → +14%
  B300 (2025)    ~6,000 TOPS  → +33%（预估）
  Rubin (2026)  ~10,000 TOPS  → +67%（预估）

注：代际间的 TOPS 提升幅度受精度格式扩展（如 B200 新增 FP4）和稀疏支持的共同影响，不完全代表同一精度的算力提升。

5.2 AMD：Chiplet 规模化 + 内存优先

AMD 的 Instinct 路线以 Chiplet（芯粒）架构和大容量 HBM 为差异化特征：

CDNA 架构：MI300X 通过 8 个 GCD（GPU Chiplet Die）+ 4 个 IOD（I/O Die）实现 1,530 亿晶体管
内存优势：MI300X 配备 192 GB HBM3，高于 H100 的 80 GB；MI325X 升级至 288 GB HBM3E
ROCm 生态：虽在软件成熟度上与 CUDA 仍有差距，但通过 AMDROCm 开源策略逐步缩小

AMD MI 系列的演进：
  MI250 (2022)   HBM2e → 128 GB,  383 TFLOPS (FP16 Matrix)
  MI300X (2023)  HBM3 → 192 GB,  653 TFLOPS (FP16 Matrix)
  MI325X (2024)  HBM3E → 288 GB, 653 TFLOPS (FP16 Matrix)  
  MI350 (2025)   CDNA 4 → 288 GB+（预估）
  MI400 (2026)   CDNA Next（预估）

5.3 Intel：开放生态 + 特化加速器

Intel 采取差异化路线——不追求单一芯片的峰值算力，而是强调生态开放性和系统级集成：

Gaudi 架构：Habana Labs 延续的技术路线，内置以太网互联（无需额外交换机），在性价比上构建竞争力
AMX（Advanced Matrix Extensions）：嵌入 Xeon 6 处理器，使通用 CPU 获得矩阵加速能力
Max 系列（Ponte Vecchio → Falcon Shores）：面向传统 HPC 的 Xe 架构，但已在 2025 年调整战略，转向更聚焦的 Gaudi 和后续 Falcon Shores 产品线

Intel 算力策略矩阵：
  纯 AI 训练/推理 → Gaudi 3 (BF16, 集成以太网)
  传统 HPC       → Xeon 6 + AMX (BF16 Matrix)
  边缘推理       → Xeon 6 (Granite Rapids) 内置 AI 加速
  Super Compute  → Falcon Shores (推迟至 2026)

5.4 Apple：统一内存 + 专用神经引擎的终端 AI 路线

统一内存架构（Unified Memory）：CPU、GPU、Neural Engine 共享同一物理内存池，消除了 PCIe 数据传输瓶颈。在 LLM 推理场景中，M2 Ultra 的 800 GB/s 带宽虽低于 H100 的 3.35 TB/s，但由于无需通过 PCIe 搬运数据，端到端延迟和能效表现往往优于同带宽水平的独立 GPU + CPU 分立方案
Neural Engine（神经引擎）：专用 16 核 ASIC 推理引擎。M4 代峰值达 38 TOPS（INT8）。在持续型推理负载（图像分类、语音识别、视频分析）中，功耗仅为 GPU 方案的 1/10–1/5，且对系统内存带宽无竞争
GPU 矩阵加速：从 M1 开始，Apple GPU 内建矩阵乘法加速单元（类似 Tensor Core），支持 FP16/INT8/INT4 精度，通过 Metal Performance Shaders 框架调用
AMX（Apple Matrix Accelerator）：嵌入 CPU 集群的矩阵协处理器，对多数应用透明加速。其 Float32 矩阵乘法性能可达普通 SIMD 指令的 4-8 倍
能效优先约束：所有 M 系列芯片面向被动散热至轻薄风冷场景——M4 (10W) 用于 iPad Pro，M4 Pro (~30W) 用于 MacBook Pro，M4 Max (~50W) 用于高端笔记本，M2 Ultra (~90W) 用于 Mac Studio/Pro。这种功耗预算从根本上决定了其绝对算力的天花板

Apple M 系列的代际演进（Neural Engine INT8 TOPS / GPU FP16 估算）：

  M1 (2020)     11 TOPS (NE)  /  ~5.3 TFLOPS (GPU FP16, 8核)    TSMC N5
  M1 Ultra      22 TOPS (NE)  /  ~21 TFLOPS (GPU FP16, 64核)    TSMC N5
  M2 (2022)     15.8 TOPS (NE) /  ~7.5 TFLOPS (GPU FP16, 10核)  TSMC N5P
  M2 Ultra      31.6 TOPS (NE) /  ~27 TFLOPS (GPU FP16, 76核)   TSMC N5P
  M3 (2023)     18 TOPS (NE)   /  ~9 TFLOPS (GPU FP16, 10核)    TSMC N3B
  M3 Max        18 TOPS (NE)   /  ~18 TFLOPS (GPU FP16, 40核)   TSMC N3B
  M4 (2024)     38 TOPS (NE)   /  ~9 TFLOPS (GPU FP16, 10核)    TSMC N3E
  M4 Max        38 TOPS (NE)   /  ~18 TFLOPS (GPU FP16, 40核)   TSMC N3E
  M4 Ultra (预计) 76 TOPS (NE)   /  ~36 TFLOPS (GPU FP16, 80核)  TSMC N3E

Apple M 系列与 NVIDIA/AMD/Intel 之间并非竞争关系，而是互补共存：前三者主导云端训练与推理，Apple 则统治端侧推理市场。但值得关注的是，统一内存架构使 M 系列在本地运行大模型推理时具有独特的效率优势——一台 Mac Studio (M2 Ultra, 192 GB) 可在 90W TDP 下运行 70B 参数模型，而同等参数量在数据中心方案中需 300-600W。

5.5 超大规模云厂商：工作负载定义的专用芯片

5.5.1 Google TPU（Tensor Processing Unit）

TPU v5p 单芯片关键参数：
  - 2 个 TensorCore，每 Core 含 2 个 MXU
  - 每 MXU 规模：128×128 × INT8 乘法器阵列
  - 单芯片 BF16 算力：459 TFLOPS
  - 每 Pod 规模：8,960 个 TPU v5p
  - 互连接口：ICI（Inter-Chip Interconnect），环形拓扑，双向 4.8 TB/s
  - 编译器：XLA / Pallas（JAX 原生支持）

  TPU v6e (Trillium) 的关键升级（2025 年）：
  - 单芯片算力较 v5p 提升 4.7×
  - Pod 规模扩展至 100,000+ 芯片
  - 首代支持 FP8 精度
  - 引入 SparseCore（稀疏计算专用引擎，面向推荐系统）

5.5.2 Amazon Trainium / Inferentia

Amazon 的人工智能芯片战略分为**训练（Trainium）和推理（Inferentia）**两条线，通过其 Neuron SDK 统一编程接口：

Inferentia 2（2022 年）：专注推理加速，单加速卡提供 3.0 PFLOPS (INT8) 性能。在 Amazon Bedrock 中大规模部署，为 Amazon Nova 系列模型提供推理服务。其最大的差异化特征是 NeuronCore-v2 引擎内置了针对 Transformer 注意力机制的硬件加速（类似 FlashAttention 的硬件实现），在变长序列推理场景中具有显著优势
Trainium 2（2024 年）：面向大规模分布式训练，单芯片配备 96 GB HBM3，支持 BF16/FP8。2025 年，AWS 联合 Anthropic 正在构建世界上最大的 AI 训练集群——由超过 100,000 颗 Trainium 2 芯片组成（Project Rainier），专为训练 Claude 下一代模型而设计
Trainium 3（2025 年下半年预计）：将采用 TSMC N3 工艺，性能预计达到 Trainium 2 的 2 倍以上

5.5.3 Microsoft Maia 100

Maia + Cobalt 双芯片战略：Maia 负责 AI 训练/推理加速，Cobalt（Arm 架构 CPU）负责通用计算
定制以太网互连：采用微软自研的网络协议栈，而非标准 RoCE，针对 All-Reduce 模式进行了优化
深度绑定 OpenAI：Maia 的架构优化直接基于 OpenAI 的模型特征，而非通用场景

微软在 AI 芯片领域的定位是减少对单一供应商（NVIDIA）的依赖，而非完全替代。目前 Azure 仍提供最丰富的 NVIDIA GPU 实例选择。

5.5.4 Meta MTIA

Meta 的 AI 芯片项目经历了从 **MTIA v1（推理）**到 **MTIA v2（训练/推理统一）**的演进，采用 TSMC N5 工艺。Meta 的策略具有以下特点：

推荐系统优先：MTIA 的设计基准之一是 Meta 的推荐系统（Reels / Feed 排名），这类工作负载对内存带宽和延迟的要求与传统 LLM 训练有显著差异
开源硬件参考设计：Meta 是三大云厂商中唯一选择了部分开放硬件设计的路径——Open Compute Project 平台上可获取 MTIA 的参考设计
PyTorch 生态优势：作为 PyTorch 的主要维护者，Meta 在编译器层面（TorchInductor / Glow）拥有对 MTIA 的原生优化能力

5.5.5 其他值得关注的参与者

公司	芯片	目标	状态
Tesla	Dojo D1	自动驾驶视觉模型训练	2023 年已部署 Dojo ExaPOD
百度	昆仑芯 2/3	百度搜索 + 文心大模型	已在百度智能云部署
华为	昇腾 910B/910C	LLM 训练/推理	大规模部署于中国 AI 市场
字节跳动	自研 AI 芯片研发中	抖音/豆包大模型	研发阶段
OpenAI	自研 AI 芯片研发中	GPT 系列训练/推理	2026 年预计

趋势总结： 超大规模云厂商自研芯片的兴起标志着 AI 算力产业进入**"垂直整合"时代**。到 2026 年，预计 Top 6 超大规模厂商（Google、Amazon、Microsoft、Meta、Tesla、字节跳动）中至少 5 家将拥有部署中的自研 AI 芯片。这一趋势对 NVIDIA 构成的威胁并非来自单一芯片的性能对标，而是生态锁定效应的逐步松解——当越来越多的核心工作负载跑在非 CUDA 的自研芯片上时，CUDA 的护城河将在边际上被削弱。

5.6 综合对比总表

维度	NVIDIA	AMD	Intel	Apple	Google/Amazon/Microsoft (Hyperscaler ASIC)
架构策略	统一 CUDA + Tensor Core	Chiplet 规模化，大内存	开放生态，特化加速器	系统级 SoC + 统一内存	工作负载定义的定制 ASIC
算力密度	★★★★★	★★★★	★★★	★★★（受功耗预算约束）	★★★★（脉动阵列高度特化）
内存容量	★★★	★★★★★	★★★	★★★★（统一内存架构高效）	★★★★（TPU v5p: 95GB HBM2e）
内存带宽	★★★★★ (HBM3/HBM3E)	★★★★★ (HBM3E)	★★★★ (HBM2e)	★★★ (LPDDR 封装)	★★★★（ICI 互连优化）
互联带宽	★★★★★（NVLink）	★★★★（Infinity Fabric）	★★★（集成以太网）	★★（Thunderbolt / 无片间互联）	★★★★（自研 ICI/EFA 网络）
软件生态	★★★★★（CUDA）	★★★（ROCm 追赶中）	★★★（OneAPI 统一）	★★★（Metal + Core ML，封闭生态）	★★★（XLA/JAX 为主，生态封闭但高效）
能效比	★★★★	★★★	★★★	★★★★★（行业领先）	★★★★（定制化设计提升能效）
集群扩展性	★★★★★	★★★★	★★★★（Ethernet 标准）	★（无多卡集群方案）	★★★★★（TPU Pod: 8,960+ / Trainium: 100,000+）
端侧推理	★★★（Jetson/Orin）	★★	★★★	★★★★★（Mac/iPad 原生）	★（纯数据中心方案）
性价比	★★★	★★★★	★★★★（Gaudi 3）	★★★★（按性能/功耗综合）	★★★★★（TCO 优化是核心驱动力）

六、算力标准的困局与出路

6.1 当前标准体系的问题

精度不统一：同一芯片的 FP4 算力是 FP32 的 8 倍以上，厂商可合法选择对自己最有利的精度标注
稀疏假设含混：标注"FP8 TOPS"是否包含 2:4 稀疏？B200 的 4,500 TFLOPS（含稀疏）对用户来说只有约 2,250 TFLOPS 可及
理论 vs. 持续：所有顶刊和厂商数据均是理论峰值，实际 Rooffline 利用率仅 20-50%
缺乏应用级标尺：当前最权威的 MLPerf 仅覆盖有限数目的测试场景

6.2 建立统一算力标尺的可行方向

方向一：PPA（Performance-Per-Watt-Area）三元基准

有效计算效率 = 实际吞吐量 / (TDP × 芯片面积 × 成本)

综合考量算力、功耗、面积和成本四个维度，而非单一算力峰值。

方向二：训练/推理标准化工作负载基准

参考 MLPerf 的做法，进一步扩展覆盖更多模型类别的标准化 benchmark：

类别	基准模型	关注指标
LLM 训练	Llama 3.1 70B / GPT-4 等效	tokens/sec/GPU，MFU
LLM 推理	Llama 3.1 8B / 70B	tokens/sec，TTFT
多模态	LLaVA-NeXT / Stable Diffusion 3	生成质量 + 吞吐
科学计算	OpenMM / GROMACS / WRF	模拟天数/天
推荐系统	DLRM	吞吐 + 延迟

方向三：标准化算力密度报告

建议厂商同时在以下格式中报告算力，供用户直接比较：

[芯片型号] | [精度] | [理论峰值，无稀疏] | [理论峰值，含稀疏] | [MLPerf 基准吞吐] | [TDP]
--- 示例（B200）---
B200 | FP8 | 2,250 TFLOPS | 4,500 TFLOPS | 145,000 samples/s (GPT-J) | 1,000W

七、结论

芯片算力标准是一个横跨半导体设计、计算机体系结构、数值计算理论三个领域的复合度量问题。本文的核心发现可概括为：

"算力"不是一个单一数字——它至少需要明确精度格式（FP32/FP16/BF16/FP8/INT8）、是否含稀疏优化、是否为持续性能三个参数
五大技术路线已出现明显分化——NVIDIA 以统一 CUDA 生态 + NVLink 锁定多卡场景，保持算力密度领先；AMD 以 Chiplet + 大内存提供容量与性价比优势；Intel 以开放以太网标准和 Xeon 嵌入式矩阵加速走差异化路线；Apple 则以系统级 SoC + 统一内存架构在端侧 AI 推理市场建立了不可替代的能效优势；Google、Amazon、微软等超大规模云厂商正通过工作负载定义的定制 ASIC，以 TCO 优化为驱动力逐步构建独立的算力生态——这一趋势对 CUDA 的长期壁垒构成了边际解构效应
峰值算力与实际性能之间存在系统性偏差——Roofline 模型表明，大部分工作负载受内存带宽限制而非算力限制
行业亟需建立统一的算力报告标准——建议学术界和行业组织（如 MLPerf、SPEC）推动将精度标注、稀疏假设和持续利用率纳入强制披露范围

理解算力标准背后的原理，比记住任何一个标称数字都更重要——因为下一个架构发布时，那个数字会翻倍，但度量鸿沟不会消失。

参考文献：

Jouppi, N. et al. "In-Datacenter Performance Analysis of a Tensor Processing Unit." ISCA 2017.
NVIDIA. "NVIDIA H100 Tensor Core GPU Architecture." Whitepaper, 2022.
NVIDIA. "NVIDIA Blackwell GPU Architecture." Whitepaper, 2024.
AMD. "AMD Instinct MI300X Architecture." Product Brief, 2023.
Intel. "Intel Gaudi 3 AI Accelerator." Product Overview, 2024.
Williams, S. et al. "Roofline: An Insightful Visual Performance Model for Multicore Architectures." CACM 2009.
MLPerf Inference v4.0 Results. https://mlcommons.org/benchmarks/inference/
Micikevicius, P. et al. "Mixed Precision Training." ICLR 2018.
NVIDIA. "Structured Sparsity in the Ampere Architecture." Developer Blog, 2020.
Apple. "Apple M4 Architecture." Apple Platform Performance, 2025.
Apple. "Neural Engine Performance in Apple Silicon." Apple Developer Documentation, 2024.
Jouppi, N. et al. "TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings." ISCA 2023.
Amazon AWS. "AWS Trainium 2 and Neuron Core Architecture." AWS re:Invent, 2024.
Microsoft. "Microsoft Maia 100 AI Accelerator." Ignite Conference, 2024.

AI芯片硬件架构技术综述