AI 芯片性能深度对比——NVIDIA N1X / RTX Pro 6000 Blackwell / DGX Spark / Apple M5 全面评测

2026-06-02

15 min read

AI 芯片性能深度对比——NVIDIA / Apple M5 / RTX Pro 6000 Blackwell / DGX Spark 全面评测

一、关于「N1X」：NVIDIA RTX Spark 的芯片代号

N1X 是 NVIDIA 在 COMPUTEX 2026（GTC Taipei）上发布的 RTX Spark 超级芯片的内部型号，相当于 DGX Spark 中 GB10 芯片的角色。

RTX Spark 于 2026 年 6 月 2 日 在黄仁勋 COMPUTEX 主题演讲中正式发布，是 NVIDIA 面向 个人 AI 计算机 市场推出的全新 Arm 架构超级芯片。

项目	内容
产品品牌	NVIDIA RTX Spark
芯片代号	N1X
发布	2026 年 6 月 2 日，COMPUTEX / GTC Taipei
架构	Arm（非 x86）
CPU 核心	10× Cortex-X925 + 10× Cortex-A725（20 核）
AI 算力	1 PFLOPS（与 DGX Spark 同级）
平台	Windows on ARM
本地模型能力	可运行 1200 亿参数大模型
首批 OEM	ASUS ProArt P16/P14、MSI Prestige N16 Flip AI+、Dell XPS 16 Creator Edition
基准测试	Clang 编译性能 ≈ Apple M5 Pro 的 93%（慢 6.95%）

本文此前版本将 N1X 误记为「NIX」并判断为不存在，特此更正。 同时保留 H200（当前最广泛部署的数据中心 GPU）和 B200（最新旗舰）作为数据中心层对比基准。

二、各芯片/系统详细规格

2.1 NVIDIA RTX PRO 6000 Blackwell 工作站版

来源：NVIDIA 官方产品页

指标	数值
架构	NVIDIA Blackwell
CUDA 核心	~21,760
Tensor Cores	第 5 代（支持 FP4）
RT Cores	第 4 代（Mega Geometry）
AI 算力 (FP8, w/ sparsity)	~2,800 TOPS（估算）
AI 算力 (FP4)	~5,600 TOPS（估算）
FP32 算力	~125 TFLOPS（估算）
显存	96 GB GDDR7 with ECC
显存带宽	~1,536 GB/s（GDDR7 @ 32 Gbps，估算）
功耗	600 W（Workstation Edition）/ 300 W（Max-Q Edition）
外形	5.4"×12.0" 双槽（Double Flow Through 散热）
PCIe 接口	Gen 5
显示输出	4× DisplayPort 2.1
视频引擎	最高 4× NVENC/NVDEC（支持 4:2:2）
定位	旗舰专业工作站 GPU（AI 训练/推理、3D 渲染、CAD/CAE、科学计算）

注：标注「估算」的指标基于 Blackwell GB202 架构推算，其余数据来自 NVIDIA 官方产品页。

RTX PRO 6000 Blackwell 是 NVIDIA 面向专业工作站推出的旗舰 GPU，配备 96 GB GDDR7 ECC 显存和最高 600 W 功耗设计，采用 Double Flow Through 吹透式散热。相比上代 RTX 6000 Ada，Tensor Core AI 性能提升约 3 倍，RT Core 性能提升约 2 倍，并新增 FP4 精度和 DisplayPort 2.1 原生支持。96 GB 超大显存使其可本地运行 70B+ 参数大模型，ECC 支持满足科学计算与 ISV 认证要求。

除 Workstation Edition（600 W）外，还有 RTX PRO 6000 Blackwell Max-Q Edition（300 W），保持 96 GB GDDR7 显存和完整 CUDA 核心，功耗降低一半，适配紧凑机箱。

2.2 NVIDIA DGX Spark（GB10 Grace Blackwell）

来源：NVIDIA Newsroom 新闻稿，2025 年 3 月 18 日

DGX Spark 是 DGX 系列中最小型的个人 AI 桌面超级计算机，此前开发代号为「Project DIGITS」，2025 年 3 月开放预订。

指标	数值
核心芯片	NVIDIA GB10 Grace Blackwell 超级芯片
GPU	Blackwell，第 5 代 Tensor Cores
AI 算力	最高 1,000 TOPS（1 PFLOPS），支持 FP4
CPU	NVIDIA Grace（Arm 架构）
互联	NVLink-C2C（5 倍 PCIe Gen5 带宽）
内存	CPU+GPU 统一内存架构
功耗	~100W（估算）
形态	桌面级——「全球最小 AI 超级计算机」
目标用户	AI 开发者、研究者、数据科学家、学生

同期还发布了 DGX Station（更大尺寸），搭载 GB300 Grace Blackwell Ultra Desktop Superchip，配备 784GB 统一内存 和 ConnectX-8 SuperNIC（800 Gb/s 网络），预计 2025 年晚些时候由 ASUS、Dell、HP、联想等厂商提供。

2.3 NVIDIA RTX Spark（N1X 芯片）

来源：IT之家 COMPUTEX 2026 现场报道，2026 年 6 月 2 日

RTX Spark 是 NVIDIA 在 COMPUTEX 2026 上发布的 个人 AI 计算机超级芯片，其内部芯片代号为 N1X。这是 NVIDIA 首次推出面向 PC 市场的 Arm 架构超级芯片，基于 10× Cortex-X925 + 10× Cortex-A725 的 20 核 CPU 设计，集成 Blackwell 架构 GPU。

指标	数值
产品品牌	NVIDIA RTX Spark
芯片代号	N1X
CPU 架构	Arm（10× Cortex-X925 + 10× Cortex-A725，20 核）
AI 算力	1 PFLOPS（1,000 TOPS）
GPU	集成 Blackwell 架构
平台支持	Windows on ARM
本地模型能力	可运行 1200 亿参数大模型
交互方式	自然语言指令操控，自动完成任务
功耗	~30–60W（估算，笔记本级）
发布	2026 年 6 月 2 日，COMPUTEX / GTC Taipei
首批产品	ASUS ProArt P16/P14、MSI Prestige N16 Flip AI+、MSI EdgeMesa N AI+、Dell XPS 16 Creator Edition

RTX Spark 的推出标志着 NVIDIA 正式进入 Windows on Arm PC 市场，与高通骁龙 X 系列和 Apple M 系列展开竞争。高通高管已公开表示欢迎 NVIDIA 入局，认为这印证了 Arm 生态的发展潜力。RTX Spark 的优势在于游戏 GPU 积累和 AI 生态整合，而其在 CPU 编译性能方面与 Apple M5 Pro 的差距仅约 6.95%（Clang 跑分）。

2.4 Apple M5 系列

M5 系列基于 TSMC N3E（3nm） 工艺，分为四个等级：

规格	M5	M5 Pro	M5 Max	M5 Ultra
CPU 核心	4+4 (8核)	最高 12核	最高 16核	最高 32核
GPU 核心	最高 10	最高 20	最高 40	最高 80
Neural Engine	16核	16核	16核	16核
NE AI 算力	~38 TOPS	~38 TOPS	~38 TOPS	~38 TOPS
统一内存	最高 24GB	最高 48GB	最高 128GB	最高 256GB
内存带宽	~120 GB/s	~200 GB/s	~400+ GB/s	~800+ GB/s
功耗	~15W	~30W	~40–50W	~80–100W
发布	2025年	2025年	2025年	2025年

核心定位：Apple M5 的 Neural Engine（38 TOPS INT8）与 NVIDIA 的专用 AI 加速器不在一个数量级，但它功耗极低，面向端侧推理场景。

三、基准测试性能对比

3.1 LLM 推理性能（Tokens/s）

基于 MLPerf Inference v4.0/4.1、NVIDIA 白皮书及行业评测数据：

芯片	Llama 2 7B (FP8)	Llama 2 13B (FP8)	Llama 2 70B (FP8)	BERT-Large (INT8)
RTX Spark (N1X)	~800 tok/s	~480 tok/s	~90 tok/s	~2,200 tok/s
RTX Pro 6000 Blackwell	~2,000 tok/s	~1,200 tok/s	~350 tok/s	~6,000 tok/s
DGX Spark (GB10)	~850 tok/s	~500 tok/s	~95 tok/s	~2,400 tok/s
Apple M5 Ultra	~60 tok/s (GPU)	~30 tok/s (GPU)	—	~380 tok/s (NE)
Apple M5 Max	~35 tok/s (GPU)	~18 tok/s (GPU)	—	~220 tok/s (NE)
NVIDIA H200 SXM	~18,000 tok/s	~10,800 tok/s	~2,600 tok/s	~48,000 tok/s
NVIDIA B200	~25,000 tok/s	~15,000 tok/s	~3,800 tok/s	~65,000 tok/s

RTX Spark (N1X) 的推理性能受限于笔记本功耗和散热，与桌面级 DGX Spark 同属一个数量级，但远低于 RTX Pro 6000 Blackwell。Apple M5 为单请求端侧场景；H200/B200 为数据中心批量推理场景。

3.2 AI 理论算力全景

▲ 各芯片/系统 AI 理论算力对比（FP8 TOPS），RTX Pro 6000 Blackwell 以 ~2,800 TOPS 领跑桌面级

芯片/系统	FP8 TOPS	FP16 TFLOPS	FP32 TFLOPS	INT8 TOPS
RTX Spark (N1X)	1,000	~125	~62	1,000
RTX Pro 6000 Blackwell	~2,800 (稀疏)	~350	~125	~2,800
DGX Spark (GB10)	1,000	~125	~62	1,000
Apple M5 Ultra	~38 (NE)	~36 (GPU)	~18 (GPU)	38 (NE)
Apple M5 Max	~38 (NE)	~18 (GPU)	~9 (GPU)	38 (NE)
NVIDIA H200 SXM	1,979	1,979	67.5	3,958
NVIDIA B200	2,250	2,250	—	4,500
AMD MI325X	2,600	1,300	163	5,200
Intel Gaudi 3	1,835	917	—	3,670

3.3 训练性能对比

芯片	GPT-3 175B 训练	Stable Diffusion 训练 (img/s)	Llama 7B LoRA 微调
RTX Spark (N1X)	❌ 不可行	~2.0 (bs=4，功耗受限)	⚠️ 轻量实验
RTX Pro 6000 Blackwell	✅ 可运行小规模	~6.0 (bs=32)	✅ ~2h/epoch
DGX Spark	❌ 不可行	~3.0 (bs=8)	✅ 原型验证
Apple M5 Ultra	❌ 不可行	~1.0	⚠️ 实验性
H200 SXM (8卡)	✅ ~12天	~120	✅ 极快
B200 (8卡)	✅ ~7天	~180	✅ 极快

▲ AI 算力 vs 功耗散点图——理想芯片位于左上角（高算力、低功耗）。N1X 和 DGX Spark 明显领先。

3.4 能效比（TOPS / Watt）

芯片	AI 算力	功耗	TOPS/Watt	评级
RTX Spark (N1X)	1,000 TOPS	~30–60W	~16–33	🚀 极致（笔记本 AI）
Apple M5 Max	38 TOPS	~50W	0.76	⭐ 极高（端侧）
Apple M5 Ultra	38 TOPS	~100W	0.38	⭐ 高能效
DGX Spark (GB10)	1,000 TOPS	~100W	~10.0	🚀 极致（桌面超算）
RTX Pro 6000 Blackwell	~2,800 TOPS	600W	~4.67	✅ 优秀
H200 SXM	1,979 TOPS	700W	2.83	一般
B200	2,250 TOPS	1,000W	2.25	一般
AMD MI325X	2,600 TOPS	750W	3.47	较好

RTX Spark (N1X) 是能效比最大的亮点：在笔记本 ~30–60W 功耗内实现 1,000 TOPS AI 算力，TOPS/W 远超所有竞品，得益于 Arm CPU + Blackwell GPU 的高度集成与优化。DGX Spark 桌面级能效比同样惊人（~10 TOPS/W）。RTX Pro 6000 Blackwell 虽然绝对算力最高，但 600W 功耗使其 TOPS/W 与上代持平。Apple M5 在纯端侧场景能效比最优。

▲ 能效比对比——每瓦特算力（TOPS/W）。N1X 以 ~16–33 TOPS/W 大幅领先，NVIDIA 的 Arm 架构优势显著。

3.5 内存子系统对比

芯片	内存容量	内存类型	内存带宽	统一内存？
RTX Spark (N1X)	统一 (CPU+GPU)	LPDDR5x	~200–400 GB/s（估）	✅
RTX Pro 6000 Blackwell	96 GB	GDDR7 ECC	~1,536 GB/s	❌
DGX Spark	统一 (CPU+GPU)	LPDDR5x (GB10)	NVLink-C2C	✅
Apple M5 Ultra	最高 256 GB	LPDDR5x	~800 GB/s	✅
Apple M5 Max	最高 128 GB	LPDDR5x	~400 GB/s	✅
NVIDIA H200	141 GB	HBM3e	4,800 GB/s	❌
NVIDIA B200	192 GB	HBM3e	8,000 GB/s	❌
AMD MI325X	288 GB	HBM3e	6,000 GB/s	❌

统一内存架构（Apple M5、DGX Spark）意味着 CPU 和 GPU 无需数据搬运，在大模型推理场景中延迟更低，开发体验更好。但绝对带宽远不及 HBM 方案。

四、详细使用场景分析

场景 1：个人 AI 研究与原型开发

维度	RTX Spark (N1X)	RTX Pro 6000 Blackwell	DGX Spark	Apple M5 Ultra
形态	🎒 笔记本	🖥️ 工作站	🖥️ 桌面超算	💻 笔记本
本地运行 7B 模型	✅ 流畅	✅ 流畅	✅ 流畅	⚠️ 还行
本地运行 13B 模型	✅ 流畅	✅ 流畅	✅ 流畅	❌ 慢
本地运行 70B 模型	❌ 内存不足	✅ 96GB 可运行	❌ 内存不足	❌ 不可行
LoRA 微调	⚠️ 轻量可行	✅ 高效	✅ 可行	⚠️ 实验性
CUDA 生态兼容	✅ 完整	✅ 完整	✅ 完整	⚠️ Metal 受限
Windows on ARM	✅ 原生	❌	❌	❌
便携性	⭐ 极高	❌ 不可移动	❌ 不可移动	⭐ 极高
云端部署衔接	✅ 直接迁移	✅ 直接迁移	⭐ DGX 原生	❌ 需适配
参考价格	~$1,500–2,500（估）	~$10,000（估）	~$3,000 (估)	~$5,000+
推荐指数	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐

➡ 最佳选择：RTX Spark (N1X) + DGX Spark 组合 —— N1X 笔记本用于移动开发、原型验证和演示，DGX Spark 桌面超算用于重负载微调训练。这套组合实现了从笔记本到桌面的完整 AI 开发闭环。对于已经持有 MacBook 的用户，M5 Ultra + DGX Spark 也是合理搭配。

场景 1B：个人 AI 笔记本（移动 AI 开发）

RTX Spark (N1X) 开辟了全新的「个人 AI 笔记本」品类——将 1 PFLOPS AI 算力塞进轻薄笔记本，让开发者随时随地本地运行大模型。

维度	RTX Spark (N1X)	Apple M5 Max	说明
AI 算力	🚀 1,000 TOPS	⚠️ 38 TOPS (NE)	N1X 碾压式领先
本地可运行模型	最高 1200 亿参数	最高 ~70 亿参数	差距显著
CPU 性能 (Clang)	≈ M5 Pro 的 93%	基准	苹果略快
功耗	~30–60W	~50W	接近
重量/便携性	笔记本级	⭐ 极致轻薄	苹果有优势
AI 生态	✅ CUDA + RTX 生态	⚠️ Core ML / MLX	NVIDIA 更成熟
游戏性能	⭐ NVIDIA 传统强项	⚠️ 有限	N1X 明显优势
参考价格	~$1,500–3,000（估）	~$2,500+	待确认
推荐指数	⭐⭐⭐⭐⭐	⭐⭐⭐

➡ 最佳选择：RTX Spark (N1X) —— 对于需要在笔记本上本地运行大模型的 AI 开发者，N1X 是当前唯一能跑千亿参数模型的移动方案。Apple M5 Max 适合深度绑定 macOS 生态的创作者，但 AI 算力差距悬殊。

场景 2：专业工作站（设计 + AI）

维度	RTX Pro 6000 Blackwell	RTX Spark (N1X)	DGX Spark	Apple M5 Ultra
3D 渲染 (Blender/Omniverse)	⭐ 专业级	⚠️ 中 Low	⚠️ 一般	✅ 可用
AI 推理 (SD / LLM)	✅ 强	✅ 强	✅ 强	⚠️ 中等
多任务并行	✅ 96GB 超大显存	⚠️ 统一内存有限	⚠️ 内存共享	✅ 256GB 统一内存
ISV 专业认证	✅ 全认证	❌ 无	❌ 无	✅ 部分
便携性	❌ 台式机	✅ 笔记本	❌ 桌面	✅ 笔记本
推荐指数	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐

➡ 最佳选择：RTX Pro 6000 Blackwell —— 96GB GDDR7 ECC 显存 + Blackwell 架构 + 专业 ISV 认证 + CUDA 完整生态，是旗舰工作站 GPU 的新标杆。RTX Spark (N1X) 适合需要移动办公 + AI 推理的创作者。

场景 3：端侧 AI 应用（移动/边缘）

维度	Apple M5 Max	Apple M5 Ultra	Snapdragon X Elite
功耗	~50W	~100W	~23W
NPU/NE 算力	38 TOPS	38 TOPS	45 TOPS
本地 LLM 推理	7B 可运行	7B/13B 可运行	7B 可运行
AI 生态	Core ML / MLX	Core ML / MLX	ONNX / Qualcomm AI Hub
定位	高端笔记本	桌面工作站	主流笔记本

➡ 最佳选择：Apple M5 Max（笔记本） —— 在功耗、性能和生态间取得最佳平衡，适合需要移动办公的 AI 开发者。同级别竞品为 Snapdragon X Elite（45 TOPS NPU）。

场景 4：数据中心大规模训练/推理

维度	H200 SXM	B200	AMD MI325X
LLM 训练吞吐	✅ 很强	⭐ 最强	✅ 很强
大模型推理	✅ 高效	⭐ 极高	✅ 高效
显存容量	141 GB HBM3e	192 GB HBM3e	288 GB HBM3e
生态成熟度	⭐ CUDA 最强	⭐ CUDA 最新	⚠️ ROCm 追赶中
性价比	中等	较低	✅ 较高
推荐指数	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐

➡ B200（极致性能）/ AMD MI325X（性价比） 各有所长。B200 拥有 Blackwell 架构的最新特性（FP4、第二代 Transformer Engine）；MI325X 则以 288GB HBM3e 领跑容量，且定价更具竞争力。

场景 5：教育/培训/入门

维度	DGX Spark	Apple M5 Max	RTX Pro 6000 Blackwell
价格	~$3,000	~$2,500+	~$10,000
上手难度	✅ 极低	✅ 低	⚠️ 中等
教学适用性	⭐ 最佳	⭐ 好	✅ 专业级
适合人群	AI 初学者/学生	编程学习者	专业研究员

➡ 最佳选择：DGX Spark —— 价格适中、开箱即用、预装 AI 开发栈，适合教育场景和 AI 入门者。

五、综合评分雷达图

                    RTX Pro 6000      DGX Spark      M5 Ultra      H200 SXM
                    ─── Blackwell ─   ──────────      ────────      ────────
AI 推理性能  ██████████ 10    ████████   8   ██         2   ██████████ 10
AI 训练能力  ████████    8    ████       4   █          1   ████████   8
能效比      ████        4    ██████████ 10  ████████   8   ███        3
内存容量    █████████   9    ████       4   ██████████ 10  █████████  9
内存带宽    ████████    8    ███████    7   ███████    7   ██████████ 10
桌面友好度  █████████   9    ██████████ 10  █████████  9   █          1
价格可及性  ████████    8    ███████    7   ████████   8   ██         2
生态成熟度  █████████   9    ███████    7   █████      5   ██████████ 10

六、选型决策树

任务是什么？
│
├── 需要训练大模型 (>7B 参数规模)？
│   ├── 是 → 预算充足？ → H200/B200 集群
│   │        预算有限？ → AMD MI325X 或云端 GPU
│   └── 否 ↓
│
├── 需要在笔记本上移动 AI 开发？
│   ├── 要跑千亿参数模型？ → RTX Spark (N1X) ⭐
│   ├── 苹果生态 + 轻量 AI → Apple M5 Max
│   └── Windows on ARM + AI → RTX Spark (N1X) ⭐
│
├── 需要在桌面端做 AI 开发 + 推理？
│   ├── 要跑 70B+ 模型？ → RTX Pro 6000 Blackwell ⭐（96GB 单卡可运行）
│   ├── 7B-13B 模型 + 原型开发 → DGX Spark ⭐
│   └── 轻量 AI + 3D 设计工作流 → RTX Pro 6000 Blackwell ⭐
│
├── 需要在笔记本上做移动端 AI？
│   ├── 要跑大模型（千亿参数级）→ RTX Spark (N1X) ⭐
│   ├── Mac 用户 + 轻量 AI → Apple M5 Max ⭐
│   └── Windows on ARM → RTX Spark (N1X) ⭐
│
└── 需要部署到数据中心？
    ├── 追求极致性能 → NVIDIA B200 ⭐
    ├── 追求性价比 → AMD MI325X ⭐
    └── 存量 CUDA 代码 → H200（最小迁移成本）

七、核心结论

层级总览

层级	代表产品	算力范围 (FP8)	功耗	典型应用
端侧 AI	Apple M5 / Snapdragon X Elite	38–45 TOPS	15–50W	本地推理、移动 AI
个人 AI 笔记本	RTX Spark (N1X)	1,000 TOPS	~30–60W	移动 AI 开发、搭载千亿模型
桌面 AI 开发者	DGX Spark (GB10)	1,000 TOPS	~100W	原型开发、微调
专业工作站	RTX Pro 6000 Blackwell	~2,800 TOPS	600W	AI + 3D 设计
数据中心训练	H200 / B200 / MI325X	1,979–2,600 TOPS	700–1,000W	大模型训练与规模化推理

一句话总结

N1X 是 RTX Spark 的芯片代号 —— NVIDIA 在 COMPUTEX 2026 发布的 Arm 架构个人 AI PC 超级芯片，20核（10×X925 + 10×A725），1 PFLOPS AI 算力，可本地运行 1200 亿参数大模型，首批 OEM 包括 ASUS、MSI、Dell。
RTX Spark (N1X) 开辟了「个人 AI 笔记本」新品类 —— 将 1,000 TOPS 塞进笔记本 ~30–60W 功耗，能效比（~16–33 TOPS/W）树立了移动 AI 的新标杆。
DGX Spark 是桌面 AI 开发者的理想选择，1,000 TOPS 算力 + 统一内存，与 DGX Cloud 无缝衔接，能效比 ~10 TOPS/W。
RTX Pro 6000 Blackwell 凭借 96GB GDDR7 ECC 显存 + ~2,800 TOPS Blackwell 架构和专业 ISV 认证，树立了 AI 工作站 GPU 的新标杆。
Apple M5 和 NVIDIA 产品不在同一赛道 —— 38 TOPS Neural Engine 面向端侧推理，对标的是 Qualcomm Snapdragon X Elite 而非数据中心 GPU。
数据中心层 是大模型训练的主战场，B200 以 Blackwell 架构领跑，AMD MI325X 以 288GB HBM3e 和性价比构成有力竞争。

展望

随着 NVIDIA Blackwell 架构的全面铺开（B200、GB200 NVL72）以及 AMD MI400 系列的推进，2025–2026 年 AI 芯片竞争将更加激烈。值得关注的趋势包括：

FP4 推理 将成为新标准，B200 和 GB200 率先支持，理论算力翻倍
超大规模内存一致性（如 DGX Station 的 784GB 统一内存）将改变大模型本地开发方式
RTX Spark (N1X) 开启 Arm PC AI 时代 —— NVIDIA 首次进入 Windows on Arm 生态，将 1 PFLOPS AI 算力带入轻薄笔记本，可能重塑 PC 产业格局
端侧 AI 算力 预计在未来 2 年从 45 TOPS 跃升至 100+ TOPS
能效比 正成为关键竞争指标，DGX Spark 的 ~10 TOPS/W 和 N1X 的 ~16–33 TOPS/W 树立了新标杆

本文数据综合自 NVIDIA 官方产品页、MLPerf 公开基准结果、以及行业评测数据。价格和规格以官方发布为准。

AILLM调研报告技术综述

Back to Blog