灵晟登顶TOP500：一台"纯国产CPU"超算，凭什么终结了美国的E级时代？

部署于国家超级计算深圳中心的"灵晟"（LineShine）系统在第67届TOP500首次参评便拿下榜首。

当这个结果出现时，整个国内超算圈的反应大概分成两种：一种是"果然如此"，另一种是"怎么可能"。

过去几年，中国超算的实力早就不是秘密，从神威·太湖之光到后来的各类E级原型机，国内在超算领域的投入和产出，业界心知肚明。但"怎么可能"的地方在于——这台名叫灵晟（LineShine）的机器，没有GPU，没有加速器，没有任何来自西方的AI芯片，仅凭CPU就跑到了2.198 exaflops，把美国劳伦斯利弗莫尔国家实验室的El Capitan硬生生挤下了冠军宝座，领先优势超过20%。

在一个英伟达GPU几乎定义了高性能计算话语权的年代，一台纯CPU超算登顶，这件事本身就像是在说：规则，可能要变了。

一、反常识的架构：当全世界都在堆GPU，它选择了堆CPU

我们先来看看灵晟的"整体构造"。

这台部署在深圳国家超级计算中心的机器，搭载了40，960颗名为LX2的国产处理器。每颗LX2拥有304个核心，基于ARMv9指令集，主频1.55 GHz。如果按TOP500的统计口径，整机的逻辑核心数达到了1378万多个——这是一个听起来近乎荒诞的数字。

更关键的是，这些CPU不是简单的"堆核狂魔"。LX2的设计相当有特点：每颗芯片封装了两颗计算Die，每颗Die再细分为四个NUMA域，每个域内38个核心搭配4GB HBM高带宽内存。也就是说，CPU和HBM被封装在了一起，这在传统CPU架构里并不常见，反而更像GPU的内存设计思路。此外，芯片内还集成了专门的SDMA引擎，负责在DDR和HBM之间搬运数据。

这种设计的潜台词很明显：既然买不到英伟达的H100，更买不到AMD的MI300X，那就把CPU本身做得尽可能像一台"小超算"。用HBM弥补内存带宽瓶颈，用海量核心弥补没有CUDA生态的劣势，用片上互联降低数据搬运开销。

整机通过名为"灵启"的 proprietary 高速互联网络串联，每节点带宽1.6 Tb/s，采用双平面多轨胖树拓扑。操作系统则是国防科大研发的麒麟OS。从芯片到网络，从系统软件到液冷散热，灵晟几乎是一条龙国产。

二、性能的两面性：科学计算的王者，AI训练的"偏科生"

灵晟在HPL（High Performance Linpack）测试中跑出的2.198 exaflops，约占其理论峰值2.736 exaflops的80%。这个比例其实很有含金量——美国的三台E级系统（El Capitan、Frontier、Aurora）的并行效率普遍只有50%到65%。换句话说，灵晟的硬件利用率更高，说明其系统架构在极端规模下的扩展性做得相当扎实。

但我们这里还是要稍微泼下冷水。在另一个维度上，灵晟的表现就没那么亮眼了。

在HPL-MxP混合精度基准测试（更贴近AI训练场景）中，灵晟仅排名第四，成绩为7.92 exaflops。相较其HPL成绩，加速比只有3.6倍。这个数字暴露了一个残酷的事实：没有专用低精度加速器（如GPU的Tensor Core），纯CPU在AI负载下的效率天花板是显而易见的。

作为对比，美国那几台E级超算虽然双精度算力不如灵晟，但在AI场景下凭借GPU加速器可以拉开数倍差距。这也解释了为什么Intersect360 Research的CEO Addison Snell会说，如果微软、亚马逊、谷歌这些云厂商把自己的超算集群拉出来打榜，灵晟连前五都未必保得住。去年xAI的Colossus就已经被外界认为实际算力超过了El Capitan。

不过，灵晟在HPCG（高性能共轭梯度）测试中拿下了第一，成绩22.00 Petaflop/s。HPCG比HPL更贴近真实的科学计算应用，它考验的是内存子系统和内部数据吞吐能力。这说明灵晟的设计目标非常明确：它首先是一台为传统科学计算和工程仿真而生的机器，而不是追ChatGPT风口的数据中心。

三、42.2兆瓦功耗背后：一场"去GPU化"的豪赌

灵晟的功耗约为42.2兆瓦，能效比52.07 Gigaflops/W。作为参照，英特尔加速器加持的Aurora能效为26.15 GFlops/W，灵晟大概是它的两倍；但El Capitan的能效达到了60.94 GFlops/W，灵晟在这方面仍略逊一筹。

42.2兆瓦是个什么概念？大概相当于四万多户家庭的用电量。为了压住这个功耗，灵晟配备了428个存储节点、67个存储机柜，存储聚合带宽10 TB/s，并且采用了据称是国内规模最大的液冷存储方案。

从工程角度看，用纯CPU做到E级算力，本质上是一场"以量换质"的豪赌。GPU的优势在于单位功耗、单位面积下的算力密度极高，而CPU路线意味着你需要更多的芯片、更大的机房、更复杂的散热和更庞大的互联网络。但这场豪赌的前提是——你根本买不到最先进的GPU。

在美国的出口管制清单下，中国无法获得英伟达和AMD的最新一代加速器。灵晟的存在证明了一件事：即使在这种条件下，通过架构创新和系统级优化，依然可以用"自己的办法"造出一台全球最快的超算。这可能不是最优解，但在当前约束下，它可能是最现实的解。

四、为什么是现在？从"隐身"到"亮剑"的姿态转变

其实灵晟最让人意外的，不是它的性能，而是它出现在了TOP500榜单上。

过去几年，中国最先进的超算系统几乎从不参与TOP500排名。外界只能通过学术会议、厂商宣传和技术论文的碎片信息来拼凑中国E级超算的轮廓。这种"隐身"策略一度被解读为"藏锋"——既避免暴露技术细节，也不主动刺激地缘政治神经。

但这一次，中国不仅提交了，而且直接提交了一台冠军机器。

这种转变的信号意义远大于技术意义。它像是在说：美国的制裁没有卡住我们的脖子，相反，我们已经有能力在不依赖西方供应链的情况下，造出世界一流的超算。这是一种从被动防御到主动展示的姿态调整。

当然，也有冷静的声音。加州大学伯克利分校的高级研究员Jimmy Goodrich就指出，商业领域的超算集群（比如云厂商的AI训练集群）如果参与排名，TOP500的格局会完全不同。TOP500毕竟是一个以学术和国家实验室系统为主的榜单，它反映的是"官方超算"的竞赛，而不是全球算力的全部版图。

五、结语：超算竞赛进入"多极时代"

灵晟的登顶，让全球E级超算系统的数量从四台增加到五台，也首次实现了亚洲、北美和欧盟同时拥有E级系统的格局。

但这台机器真正的价值，或许不在于它是不是"全球最快"，而在于它验证了一条路径：在被技术封锁的情况下，全栈自主可控的超算系统是可以跑通的。从ARMv9架构的国产芯片，到自主高速互联，到自研操作系统，灵晟几乎是一张"去美化"超算的完整蓝图。

对于中国的超算产业来说，这是一个里程碑。但对于全球超算竞赛来说，这可能只是一个开始——当GPU不再是唯一答案，当CPU也能通过架构创新挑战E级门槛，超算的设计哲学正在经历一场静默的范式转移。

至于灵晟能在榜首坐多久？也许并不重要。重要的是，它让世界看到：在算力这条赛道上，游戏规则已经开始变了。