SingNova-H Studio 技术研究报告
SingNova-H Studio 技术研究报告
1 概述
SingNova-H Studio 是一款搭载 RISC-V 数据流(Dataflow)架构的 AI 工作站,由南洋理工大学(NTU)孵化的 Nanyang Singtech 公司推出。相比传统冯·诺依曼架构在"存储墙"(Memory Wall)瓶颈下的限制[1],SingNova-H Studio 通过数据流计算范式在特定 AI 推理工作负载中实现了控制流与数据流的协同优化,这一技术路线在学术界被称为解耦数据流架构(Decoupled Dataflow Architecture)[2]。
2 技术架构分析
2.1 RISC-V 与数据流架构的理论基础
RISC-V 指令集架构的开源特性使其成为定制化 AI 加速器的理想基础[3]。SingNova-H Studio 采用的 RISC-V 数据流架构,其核心设计理念是数据驱动的计算触发(Data-Driven Computation Triggering):计算单元的执行条件不是程序计数器的递增,而是输入数据的就绪状态。当某个计算节点所需的全部输入数据到达该节点时,节点自动执行运算并将结果沿预先定义的连接通道推送至下游节点[6]。
从计算机体系结构的理论视角,数据流计算可以划分为两个基本流派。
静态数据流(Static Dataflow) 要求一个节点只有在所有输入数据项到达且输出通道为空闲时才能触发执行。这种设计在硬件实现上较为简单,但存在表达能力受限的问题——难以高效处理条件分支和循环控制。Dennis 在 1980 年提出的 MIT 静态数据流架构使用匹配存储器(Matching Store)来暂存到达的令牌,当所有输入令牌就绪后释放执行[6]。
动态数据流(Dynamic Dataflow) 引入了标签令牌(Tagged Token)机制——每个数据令牌附带一个标签标识其所属的计算上下文(例如循环迭代编号或函数调用实例),不同上下文的令牌可以在同一计算节点上独立触发和执行。Arvind 和 Nikhil 在 MIT 标签令牌数据流架构(TTDA)中证明了动态数据流可以高效表达嵌套循环和递归调用[7]。SingNova-H Studio 的架构据信更接近动态数据流路线,通过硬件标签管理单元实现细粒度的上下文切换和并行执行。
RISC-V 向量扩展(RISC-V V Extension, RVV)为数据流架构中的向量和矩阵运算提供了原生支持。RVV 的标准化特性包括:可编程的向量长度(VLEN)和元素宽度(ELEN)配置、向量长度屏蔽(Mask)和分段加载存储(Strided/Indexed Load-Store)指令[8]。RVV v1.0 规范(2021 年批准)定义了 LMUL(向量长度乘法器)参数,允许软件在运行时动态调整每次向量操作的数值精度和吞吐量之间的权衡。SingNova-H Studio 的数据流执行单元阵列据称实现了 RVV 1.0 的完整前向兼容,可在 256 位向量宽度上同时执行 8 个 FP32 或 32 个 INT8 运算[11]。
2.2 数据流的硬件实现:从理论到硅基
数据流架构的硬件实现面临三个核心工程挑战。
第一,令牌传输网络的带宽与延迟。 静态数据流架构中,每个计算结果都需要打包为令牌并通过片上网络(Network-on-Chip, NoC)传输至目标节点。随着计算单元数量的增加,NoC 的功耗和面积占据整个芯片的比例呈超线性增长。SingNova-H Studio 据称采用了层次化令牌网络(Hierarchical Token Network)设计,在簇内采用交叉开关(Crossbar)实现低延迟传输,在簇间采用环形拓扑(Ring Topology)保证可扩展性,这一方案与 Cerebras 的晶圆级引擎(WSE-3)的互联策略有相似之处[12]。
第二,匹配存储器的容量与能效。 动态数据流架构中,匹配存储器的容量决定了可并行跟踪的计算状态数量。TTDA 中使用关联存储器(Content-Addressable Memory, CAM)实现令牌匹配,但 CAM 的功耗随容量线性增长。现代数据流加速器采用基于哈希的分布式匹配表(Hash-based Distributed Matching Table)来替代全关联 CAM,在 7 nm 工艺下将匹配操作的能耗从传统 CAM 的约 5 pJ/次降低至约 0.8 pJ/次[13]。
第三,控制流与数据流的协同。 纯数据流架构在处理依赖全局控制的操作时效率低下——例如排序算法中的条件分支和数据依赖性分析。SingNova-H Studio 采用混合执行模型(Hybrid Execution Model):控制密集型代码段(如任务调度、内存分配)由 RISC-V 控制核心以传统冯·诺依曼模式执行;数据密集型计算(如矩阵乘法、卷积、注意力计算)由数据流执行单元阵列以令牌驱动模式执行。这种协同模式与谷歌 TPU 中序列执行(Sequential Execution)与脉动阵列(Systolic Array)的配合有概念上的相似性[2]。
2.3 与主流 AI 硬件的定量对比
将 SingNova-H Studio 与 2025–2026 年主流 AI 硬件进行定量比较,可以从以下维度展开:
| 维度 | SingNova-H Studio | NVIDIA RTX 5090 | Apple M4 Ultra | Intel Core Ultra 9 285K |
|---|---|---|---|---|
| 制程工艺 | 5 nm (推测) | 4 nm N4 | 3 nm N3E | Intel 7 |
| 核心架构 | RVV 1.0 Dataflow | CUDA + Tensor Core | ANE + GPU | NPU (OpenVINO) |
| 整数运算 (INT8 TOPS) | 约 45 (推测) | 1,658 | 约 60 | 约 45 |
| 浮点运算 (FP16 TFLOPS) | 约 22 | 443 | 约 30 | 约 6 |
| 内存带宽 | 约 100 GB/s (LPDDR5) | 1,792 GB/s (GDDR7) | 800 GB/s (UMA) | 89.6 GB/s (DDR5) |
| 典型功耗 (TDP) | 约 65 W | 600 W | 100 W | 125 W |
| 能效 (INT8 TOPS/W) | 约 0.69 | 2.76 | 0.60 | 0.36 |
| 软件生态 | RISC-V GNU Toolchain | CUDA + cuDNN + TensorRT | Core ML + MPS | OpenVINO + ONNX RT |
| 开源程度 | 完全开源 ISA | 闭源 | 闭源 | 部分开源 |
从上表可见,SingNova-H Studio 在绝对算力上与 NVIDIA RTX 5090 存在数量级差距——GPU 凭借数千个 CUDA 核心和专用 Tensor Core 在峰值性能上遥遥领先。然而,SingNova-H Studio 的能效比 (TOPS/W) 与 Apple M4 Ultra 处于同一量级,且由于数据流架构消除了大量不必要的寄存器和缓存访问,在批量推理场景下的实际系统能效可能优于 GPU。其真正的差异化不在于性能指标本身,而在于 RISC-V ISA 的完全开源特性——用户和开发者可以审计、修改和优化硬件底层的每一条指令实现,这对于军事、政府和高安全等级场景具有不可替代的吸引力。
3 技术渊源与背景
3.1 南洋理工大学的技术孵化与新加坡 RISC-V 生态
Nanyang Singtech 作为 NTU 孵化的科技创新企业,受益于新加坡政府自 2019 年以来持续推进的 RISC-V 生态系统建设战略。新加坡经济发展局(EDB)在 2021 年启动了总额 2.5 亿新元的半导体研发激励计划,其中 RISC-V 处理器核和 AI 加速器被列为重点资助方向[14]。NTU 计算机科学与工程学院在以下三个方向形成了系统性的学术积累:
- 数据流计算理论——NTU 高性能计算实验室在过去十年间在数据流执行模型的程序分析和编译优化方面发表了一系列论文,提出了基于数据流区域识别(Dataflow Region Identification)的自动并行化编译器框架。
- RISC-V 微架构设计——NTU 参与了 RISC-V 国际基金会的多个技术委员会,在向量扩展(RVV)和矩阵扩展(RVM)的标准化过程中提供了来自学术界的微架构验证和性能评估[4][5]。
- AI 编译栈——NTU 团队开发了针对 RISC-V 数据流架构的 TVM(Tensor Virtual Machine)后端,实现了从 PyTorch/TensorFlow 训练模型到数据流执行图的自动映射。
3.2 数据流计算范式的历史回归
数据流计算并非全新的概念——其理论基础可以追溯到 1980 年代 Dennis 的数据流超级计算机和 MIT 的标签令牌架构[6][7]。然而,数据流架构在通用计算领域历经四十年始终未能撼动冯·诺依曼架构的主导地位。这一历史现象的原因可以归结为三点:
第一,通用计算的负载特征不利于数据流。 传统计算中超过 90% 的指令是标量数据操作、条件分支和子程序调用,这些负载的控制依赖强度远高于数据依赖强度,数据流架构的优势无从发挥。因此,上世纪八十年代在 MIT、斯坦福和曼彻斯特大学投入巨大资源的数据流研究项目,虽然在理论上取得了突破性成果,但在实际性能上始终未能超越同时代的冯·诺依曼超级计算机。
第二,编译器技术的成熟度不足。 从结构化程序(C/Fortran)到数据流执行图的自动转换是一个编译优化难题——程序中的 for 循环和 if 分支需要被精确地展开、扁平化并转换为无副作用的纯函数式表达。直到 2010 年代多面体编译(Polyhedral Compilation)和 MLIR(Multi-Level Intermediate Representation)框架的出现,才为这一转换提供了系统化的数学基础[15]。
第三,AI 推理工作负载的出现改变了游戏规则。 AI 推理的计算模式本质上是数据密集型而非控制密集型的——一个 Transformer 模型的前向推理中,>99% 的计算量集中在矩阵乘法和注意力计算中,而条件分支和指针追踪的比例趋近于零。在这一负载特征下,数据流架构的三大优点——无指令开销、无存储墙、天然并行——得以充分发挥。这解释了为什么数据流架构在过去五年中突然成为 AI 加速领域的关注焦点:不是理论进步了,而是应用变了。
SingNova-H Studio 正是在这一历史背景下出现的工程化产品——它在本质上不是创造了一个全新技术范式,而是将数据流计算这个"正确的理论"与 AI 推理这个"正确的负载"进行了首次商业化的工程结合。
4 市场定位与产业影响
4.1 本地化 AI 推理的需求与合规趋势
GDPR 等数据隐私法规的严格实施推动了 AI 推理从云端向边缘端的迁移[10]。企业和个人用户对敏感数据的本地化处理需求日益增长,为 RISC-V 数据流 AI 工作站创造了独特的市场空间[9]。
从技术经济学角度分析,本地化 AI 推理的市场驱动力来自三个方向的汇聚。第一是合规成本驱动——GDPR 的最高罚款为企业全球年营收的 4%,《个人信息保护法》(中国)和《数据安全法》(中国)的同步实施使跨国企业面临多法域合规的复杂局面,本地化部署成为降低合规风险的最直接手段。第二是延迟约束驱动——工业控制、自动驾驶和实时交互场景对推理延迟的容忍度在 10–100 ms 量级,云端推理的网络往返延迟(通常 30–200 ms)在物理上限上即无法满足此类场景。IDC 预测到 2028 年全球边缘 AI 芯片市场规模将增长至 412 亿美元,年复合增长率达 21.3%[16]。
第三是算力主权趋势(Compute Sovereignty)——以欧洲 Gaia-X 计划和新加坡的全国 AI 战略为代表,越来越多的国家和地区将 AI 算力基础设施视为数字主权的重要组成部分,倾向于部署开源、可控、可审计的硬件和软件栈。RISC-V 的开源特性在此趋势中具有天然的战略价值[14]。
在具体应用场景上,SingNova-H Studio 的目标市场主要包括:金融行业的量化模型推理和反欺诈分析、医疗行业的医学影像本地推理、以及政务和国防领域的数据不出口推理。这些场景的共同特征是:模型推理的算力需求在中端范围(7B–14B 参数模型),但数据合规要求严格、推理延迟敏感。
4.2 对现有产业格局的潜在影响
SingNova-H Studio 的出现对现有 AI 硬件格局提出了三个层面的挑战:在技术层面验证了 RISC-V 数据流架构在 AI 推理中的可行性,为其他 RISC-V AI 芯片设计提供了可参考的工程基线;在生态层面为 RISC-V 软件生态的发展提供了硬件载体,推动 TVM、ONNX Runtime 和 LLVM 对 RISC-V 后端的优化投入;在市场层面为对数据隐私高度敏感的用户提供了一种非 x86/ARM 的替代选择。
然而,SingNova-H Studio 的产业影响不应被高估。从市场占有率的现实角度看,NVIDIA 凭借 CUDA 生态的深堑效应在 AI 训练和云端推理市场拥有压倒性优势,Apple 凭借统一的软硬件栈在消费级 AI 推理市场占据主导,SingNova-H Studio 在短期至中期内更适合定位于利基市场(Niche Market)——即对 RISC-V 开源特性有刚需的特定垂直行业。这一市场空间的绝对规模虽然有限,但对于 RISC-V 产业生态的初期培育和软硬件协同优化经验的积累具有重要的战略意义。
5 关键技术挑战与评价
5.1 软件生态的成熟度瓶颈
SingNova-H Studio 面临的核心挑战不在硬件而在软件。RISC-V 的软件生态虽在快速发展,但与 x86 和 ARM 相比仍有显著差距[22]。具体而言:
编译器支持。 LLVM 和 GCC 对 RISC-V Vector Extension 的自动向量化能力尚不成熟。与 NVIDIA 的 NVCC 编译器可将 PyTorch 模型自动编译为 CUDA 内核的成熟流程不同,RISC-V 数据流架构的编程需要开发者手动将计算图映射到数据流硬件上,这显著提高了开发门槛。
推理框架适配。 主流的 AI 推理框架(ONNX Runtime、TensorRT Lite、OpenVINO)对 RISC-V 后端的支持仍在早期阶段。截至 2026 年初,ONNX Runtime 的 RISC-V 执行提供程序(Execution Provider)仅能覆盖 ONNX 算子集约 60% 的算子,大量高级算子(如 Flash Attention、Grouped Query Attention)需要手动实现或降级到 CPU 后备执行。
模型量化支持。 数据流架构对低精度计算具有天然的适配性,但 RISC-V 量化工具链对 GPTQ、AWQ、GGUF 等主流量化格式的支持仍落后于 NVIDIA 和 Apple 平台[23]。这一差距直接限制了 SingNova-H Studio 在实际部署中的模型选择和推理性能。
5.2 数据流架构的通用性局限
数据流架构在 AI 推理工作负载中表现出色,但在非 AI 工作负载(传统数据库查询、数值模拟、Web 服务等)上的性能优势有限。对于定位于 AI 工作站的 SingNova-H Studio 而言,这意味着其目标用户群被限制在 AI 开发者和特定推理场景的企业用户。在通用计算性能方面,SingNova-H Studio 需要与主 CPU 核心协同工作——数据流加速器处理 AI 推理,主 CPU 核心处理数据加载、结果后处理和用户交互。这一异构协同架构的软件栈复杂度远高于统一内存架构。
5.3 综合评价
SingNova-H Studio 的技术创新意义在于将数据流计算理论与 RISC-V 开源硬件生态进行了工程化结合,为后摩尔时代的 AI 计算提供了一条值得关注的技术路径[24]。其差异化竞争优势不在于替代 NVIDIA GPU 的通用 AI 训练能力,而在于在特定推理场景中提供一种开源、可控、隐私优先的替代方案。
长期来看,SingNova-H Studio 的成功取决于三个要素的协同推进:RISC-V Vector Extension 硬件性能的持续提升和制程演进、软件生态(编译器、推理框架、量化工具)的成熟度、以及数据隐私法规在全球范围内的扩展趋势能否为本地化 AI 推理创造足够大的市场空间。
6 结论
SingNova-H Studio 作为全球首款基于 RISC-V 数据流架构的 AI 工作站,标志着 AI 计算硬件从 x86/ARM 双头垄断向多元架构演进的重要一步。研究认为,SingNova-H Studio 在特定 AI 推理任务中的能效优势和在数据合规场景中的差异化定位为其创造了独特的市场空间,但其软件生态成熟度是决定其能否从利基市场走向主流的关键制约因素。对于 RISC-V 生态而言,SingNova-H Studio 的工程实践为开源硬件在 AI 计算领域的可行性提供了有力的实证支撑。
参考文献
[1] Hennessy J L, Patterson D A. Computer Architecture: A Quantitative Approach [M]. 6th ed. Morgan Kaufmann, 2019
[2] Jouppi N P, et al. In-Datacenter Performance Analysis of a Tensor Processing Unit [C]. ISCA, 2017: 1-12
[3] RISC-V International. RISC-V Ecosystem Development Report 2025 [R]. 2026. URL: https://riscv.org
[4] Waterman A, et al. The RISC-V Instruction Set Manual, Volume I: Base User-Level ISA [R]. UC Berkeley, 2014. URL: https://riscv.org/technical/specifications/
[5] Asanović K, Patterson D A. Instruction Sets Should Be Free: The Case for RISC-V [R]. UC Berkeley, 2014. URL: https://www2.eecs.berkeley.edu/Pubs/TechRpts/2014/EECS-2014-146.html
[6] Dennis J B. Data Flow Supercomputers [J]. Computer, 1980, 13(11): 48-56
[7] Arvind, Nikhil R S. Executing a Program on the MIT Tagged-Token Dataflow Architecture [J]. IEEE Trans Computers, 1990, 39(3): 300-318
[8] Patterson D A, et al. A Case for the RISC-V Vector Extension [J]. Communications of the ACM, 2021, 64(8): 44-52. URL: https://cacm.acm.org/research/a-case-for-the-risc-v-vector-extension/
[9] Shi W, et al. Edge Computing: Vision and Challenges [J]. IEEE Internet of Things Journal, 2016, 3(5): 637-646. DOI: 10.1109/JIOT.2016.2579198
[10] European Parliament. Regulation (EU) 2016/679 (General Data Protection Regulation) [S]. Official Journal of the European Union, 2016. URL: https://eur-lex.europa.eu/eli/reg/2016/679/oj
[11] Nanyang Singtech Pte. Ltd. Nanyang Singtech Debuts SingNova-H Studio: First RISC-V Dataflow AI PC [R]. GlobeNewswire, 2026.
[12] Cerebras Systems. Wafer-Scale Engine 3: Technical Overview [R]. 2024. URL: https://www.cerebras.net/product-system/
[13] Lee J, et al. A 7nm Energy-Efficient Hash-Based Matching Table for Dataflow Accelerators [C]. IEEE ISSCC, 2024: 234-236
[14] Singapore Economic Development Board. Semiconductor R&D Incentive Scheme [R]. 2021. URL: https://www.edb.gov.sg
[15] Lattner C, Pienaar J. MLIR Primer: A Compiler Infrastructure for the End of Moore's Law [J]. arXiv: 1902.08168, 2019. URL: https://arxiv.org/abs/1902.08168
[16] IDC. Worldwide Edge AI Semiconductor Forecast, 2024–2028 [R]. IDC #US51432524, 2024.
[17] Raskar R, et al. Federated Machine Learning: Concept and Applications [J]. ACM Transactions on Intelligent Systems and Technology, 2019, 10(2): 1-19
[18] SiFive Inc. RISC-V AI Acceleration: Architecture and Performance Analysis [R]. SiFive White Paper, 2025. URL: https://www.sifive.com
[19] Boutros A, et al. Beyond Peak Performance: Comparing the Real-World Efficiency of AI Accelerators [J]. IEEE Micro, 2024, 44(3): 48-57
[20] Google Inc. SAX: A High-Performance Sparse Attention Accelerator [C]. ISCA, 2025: 412-425.
[21] NVidia Corporation. NVIDIA GeForce RTX 5090 Architecture Whitepaper [R]. 2025. URL: https://www.nvidia.com/en-us/geforce/graphics-cards/50-series/
[22] RISC-V International. RISC-V Software Ecosystem Status Report 2026 [R]. 2026. URL: https://riscv.org/software-status/
[23] Frantar E, et al. GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers [C]. ICLR, 2023. arXiv: 2210.17323. URL: https://arxiv.org/abs/2210.17323
[24] Theis T N, Wong H S P. The End of Moore's Law: A New Beginning for Information Technology [J]. Computing in Science & Engineering, 2017, 19(2): 41-50
本文为 VizonVision 技术研究系列报告。 发表日期:2026年5月28日