部署于国家超级计算深圳中心的"灵晟"(LineShine)系统在第67届TOP500首次参评便拿下榜首。

当这个结果出现时,整个国内超算圈的反应大概分成两种:一种是"果然如此",另一种是"怎么可能"。
过去几年,中国超算的实力早就不是秘密,从神威·太湖之光到后来的各类E级原型机,国内在超算领域的投入和产出,业界心知肚明。但"怎么可能"的地方在于——这台名叫灵晟(LineShine)的机器,没有GPU,没有加速器,没有任何来自西方的AI芯片,仅凭CPU就跑到了2.198 exaflops,把美国劳伦斯利弗莫尔国家实验室的El Capitan硬生生挤下了冠军宝座,领先优势超过20%。

在一个英伟达GPU几乎定义了高性能计算话语权的年代,一台纯CPU超算登顶,这件事本身就像是在说:规则,可能要变了。
一、反常识的架构:当全世界都在堆GPU,它选择了堆CPU
我们先来看看灵晟的"整体构造"。
这台部署在深圳国家超级计算中心的机器,搭载了40,960颗名为LX2的国产处理器。每颗LX2拥有304个核心,基于ARMv9指令集,主频1.55 GHz。如果按TOP500的统计口径,整机的逻辑核心数达到了1378万多个——这是一个听起来近乎荒诞的数字。

更关键的是,这些CPU不是简单的"堆核狂魔"。LX2的设计相当有特点:每颗芯片封装了两颗计算Die,每颗Die再细分为四个NUMA域,每个域内38个核心搭配4GB HBM高带宽内存。也就是说,CPU和HBM被封装在了一起,这在传统CPU架构里并不常见,反而更像GPU的内存设计思路。此外,芯片内还集成了专门的SDMA引擎,负责在DDR和HBM之间搬运数据。
这种设计的潜台词很明显:既然买不到英伟达的H100,更买不到AMD的MI300X,那就把CPU本身做得尽可能像一台"小超算"。用HBM弥补内存带宽瓶颈,用海量核心弥补没有CUDA生态的劣势,用片上互联降低数据搬运开销。
整机通过名为"灵启"的 proprietary 高速互联网络串联,每节点带宽1.6 Tb/s,采用双平面多轨胖树拓扑。操作系统则是国防科大研发的麒麟OS。从芯片到网络,从系统软件到液冷散热,灵晟几乎是一条龙国产。
二、性能的两面性:科学计算的王者,AI训练的"偏科生"
灵晟在HPL(High Performance Linpack)测试中跑出的2.198 exaflops,约占其理论峰值2.736 exaflops的80%。这个比例其实很有含金量——美国的三台E级系统(El Capitan、Frontier、Aurora)的并行效率普遍只有50%到65%。换句话说,灵晟的硬件利用率更高,说明其系统架构在极端规模下的扩展性做得相当扎实。

但我们这里还是要稍微泼下冷水。在另一个维度上,灵晟的表现就没那么亮眼了。
在HPL-MxP混合精度基准测试(更贴近AI训练场景)中,灵晟仅排名第四,成绩为7.92 exaflops。相较其HPL成绩,加速比只有3.6倍。这个数字暴露了一个残酷的事实:没有专用低精度加速器(如GPU的Tensor Core),纯CPU在AI负载下的效率天花板是显而易见的。
作为对比,美国那几台E级超算虽然双精度算力不如灵晟,但在AI场景下凭借GPU加速器可以拉开数倍差距。这也解释了为什么Intersect360 Research的CEO Addison Snell会说,如果微软、亚马逊、谷歌这些云厂商把自己的超算集群拉出来打榜,灵晟连前五都未必保得住。去年xAI的Colossus就已经被外界认为实际算力超过了El Capitan。
不过,灵晟在HPCG(高性能共轭梯度)测试中拿下了第一,成绩22.00 Petaflop/s。HPCG比HPL更贴近真实的科学计算应用,它考验的是内存子系统和内部数据吞吐能力。这说明灵晟的设计目标非常明确:它首先是一台为传统科学计算和工程仿真而生的机器,而不是追ChatGPT风口的数据中心。
三、42.2兆瓦功耗背后:一场"去GPU化"的豪赌
灵晟的功耗约为42.2兆瓦,能效比52.07 Gigaflops/W。作为参照,英特尔加速器加持的Aurora能效为26.15 GFlops/W,灵晟大概是它的两倍;但El Capitan的能效达到了60.94 GFlops/W,灵晟在这方面仍略逊一筹。
42.2兆瓦是个什么概念?大概相当于四万多户家庭的用电量。为了压住这个功耗,灵晟配备了428个存储节点、67个存储机柜,存储聚合带宽10 TB/s,并且采用了据称是国内规模最大的液冷存储方案。
从工程角度看,用纯CPU做到E级算力,本质上是一场"以量换质"的豪赌。GPU的优势在于单位功耗、单位面积下的算力密度极高,而CPU路线意味着你需要更多的芯片、更大的机房、更复杂的散热和更庞大的互联网络。但这场豪赌的前提是——你根本买不到最先进的GPU。
在美国的出口管制清单下,中国无法获得英伟达和AMD的最新一代加速器。灵晟的存在证明了一件事:即使在这种条件下,通过架构创新和系统级优化,依然可以用"自己的办法"造出一台全球最快的超算。这可能不是最优解,但在当前约束下,它可能是最现实的解。
四、为什么是现在?从"隐身"到"亮剑"的姿态转变
其实灵晟最让人意外的,不是它的性能,而是它出现在了TOP500榜单上。
过去几年,中国最先进的超算系统几乎从不参与TOP500排名。外界只能通过学术会议、厂商宣传和技术论文的碎片信息来拼凑中国E级超算的轮廓。这种"隐身"策略一度被解读为"藏锋"——既避免暴露技术细节,也不主动刺激地缘政治神经。
但这一次,中国不仅提交了,而且直接提交了一台冠军机器。
这种转变的信号意义远大于技术意义。它像是在说:美国的制裁没有卡住我们的脖子,相反,我们已经有能力在不依赖西方供应链的情况下,造出世界一流的超算。 这是一种从被动防御到主动展示的姿态调整。
当然,也有冷静的声音。加州大学伯克利分校的高级研究员Jimmy Goodrich就指出,商业领域的超算集群(比如云厂商的AI训练集群)如果参与排名,TOP500的格局会完全不同。TOP500毕竟是一个以学术和国家实验室系统为主的榜单,它反映的是"官方超算"的竞赛,而不是全球算力的全部版图。
五、结语:超算竞赛进入"多极时代"
灵晟的登顶,让全球E级超算系统的数量从四台增加到五台,也首次实现了亚洲、北美和欧盟同时拥有E级系统的格局。
但这台机器真正的价值,或许不在于它是不是"全球最快",而在于它验证了一条路径:在被技术封锁的情况下,全栈自主可控的超算系统是可以跑通的。 从ARMv9架构的国产芯片,到自主高速互联,到自研操作系统,灵晟几乎是一张"去美化"超算的完整蓝图。
对于中国的超算产业来说,这是一个里程碑。但对于全球超算竞赛来说,这可能只是一个开始——当GPU不再是唯一答案,当CPU也能通过架构创新挑战E级门槛,超算的设计哲学正在经历一场静默的范式转移。
至于灵晟能在榜首坐多久?也许并不重要。重要的是,它让世界看到:在算力这条赛道上,游戏规则已经开始变了。