基石筑底｜算力新基建：超节点与光互连，能否绕过单芯片的物理天花板？-数据猿的专栏

基石筑底｜算力新基建：超节点与光互连，能否绕过单芯片的物理天花板？

2026-07-02 21:03:57栏目：默认栏目 IP属地：IP未知

当算力竞赛从“单卡比拼”进入“系统级主权竞争”新阶段，衡量标准不再是单芯片峰值，而是整套系统能把算力用多满。

2026年，产业重心已从训练转向推理，推理算力规模反超训练，算力从科研工具变为全行业通用基建，成为每天必须支付的运营成本。行业不再问“有多少张卡”，而是问“有效算力是多少”。集群线性度每提升10个百分点，硬件成本降15%、电费省20%，万卡集群意味着数亿元的真金白银。

当单芯片逼近物理极限，靠什么支撑有效算力的持续增长？WAIC 2026的“基石筑底”篇章，从架构、技术、生态和工程四方面给出了系统级答案。

架构破局：超节点能否打破单芯片的物理天花板？

单颗芯片的性能快到天花板了，算力规模继续做大，只能靠一件事，那就是把更多芯片用更快的方式连起来。这就是“超节点”在做的事情。

传统做法就是堆卡，而且越多越好。但这条路越走越窄。GPT-5级别的大模型训练，跨节点通信开销占了总训练时间的三成以上。也就是说，买100张卡的钱，有30张卡的时间在干等数据。GPU算力每年提升2到3倍，但内存带宽一年只涨15%到30%，两者之间的差距越来越大。

超节点解决的就是这个问题，通过高速互联技术，把几十甚至上百颗GPU变成一个统一的“计算矩阵”，让原来需要跨机柜传输的数据变成内部通信，大幅减少等待时间。

华为在WAIC 2026全球真机首展Atlas 950 SuperPoD，这是目前行业规模最大的商用超节点。单柜64卡起步，最多可以连8192张NPU卡，专门为万亿参数的大模型训练和推理设计。华为还提出了一个叫“韬定律”的新思路，与其死磕晶体管尺寸，不如压缩信号传输的时间延迟，用架构创新在成熟制程上跑出高性能。

Atlas 950 超节点

壁仞、沐曦、燧原、天数智芯四家国产GPU厂商联手打造的Matrix超节点，用的就是这套架构，已经入围了本届WAIC的SAIL奖TOP30。几家曾经的竞争对手坐在一起做同一套系统，这件事本身就是信号——中国算力不再是各干各的，而是开始抱团做系统了。

技术思辨：后摩尔时代，光互连是唯一的技术路线吗？

超节点解决的是“怎么连”的问题，光技术解决的是“用什么连”的问题，后者更接近物理底层。

摩尔定律放缓这件事，行业已经不再争论了。晶体管越做越小，成本越来越高，收益越来越低。电信号天生有发热和带宽上限，内存墙和互连墙这两堵墙，靠电子技术很难翻过去。光不一样。光子的传输速度比电子快得多，而且不发热、不耗电，天然适合做大范围高速数据传输。

光互连给算力集群修的是“数据高铁”，光计算则直接用光子做运算，绕过电子电路的物理极限。这两项技术加在一起，被行业视为后摩尔时代最有希望的路。

资本已经用脚投票了。2026年曦智科技在港交所上市，被称为“全球AI硅光芯片第一股”。本届WAIC，曦智将举办大会历史上第一场光技术专场论坛。传统电芯片受限于摩尔定律放缓与“内存墙”“互连墙”，算力供给严重滞后。因此，光技术成为破局的关键，光互连为算力集群提供低时延、高带宽、低能耗的低能耗的支撑；光计算利用光子并行性与线性运算优势，绕过电子晶体管微缩极限。光技术专场论坛实实在在地展示光互连和光计算在智算集群里怎么落地，正面回应“光能不能替代电”这个行业终极问题。

天枢·光立方

一个越来越清晰的共识是：在超节点这种大规模集群里，光技术不是可选项，而是必选项。华为的Atlas 950、中兴的OEX，全都靠光模块实现万卡级互联。借助WAIC顶级行业平台，展示国内自研光算力技术方案，开放交流、共建算力生态。

生态突围：开源协作能否打破“一卡一软件”的碎片化困局？

硬件架构持续革新，光互联技术不断演进，倘若软件与存储配套能力跟不上，算力依旧难以跑满，生态底座必须同步升级。

现在全球有上百家AI芯片厂商，每家都有自己的编程模型、算子库、通信协议。一个模型从英伟达的卡迁移到国产芯片，往往要重新编译、重新优化，成本极高。算力碎片化的结果就是硬件越买越多，真正能用起来的却不到四成。

今年由图灵奖得主大卫·帕特森（David Patterson）亲自领衔的全球AI开放计算与智能体技术生态论坛，瞄准的就是这个问题。核心方案是一个叫FlagOS的统一智算底座。也可以理解为给所有芯片做一个通用的“操作系统”，让不同架构的芯片能跑同一套软件。

更值得关注的是，这场论坛邀请到Linux、Eclipse、PyTorch三大国际开源基金会，用开源协作替代厂商锁定。这是国产算力第一次拿到国际通行的“软件护照”。

还有一个长期被忽略的角色，那就是存储。行业里所谓的“I/O墙”，本质上是冯·诺依曼架构中存储与计算速度不匹配的固有瓶颈——计算单元算力持续跃升，而数据供给效率无法同步跟上，导致GPU因等待数据而频繁处于空闲状态。

存储是打通软硬件协同、实现生态闭环的核心底座，也是长期被低估的关键生态短板。西部数据首次参会并专设“面向AI时代的数据存储架构”论坛，聚焦存储、算力、安全一体化生态协同的难点与突破口，补齐算力生态碎片化的最后一环。其行业调研明确印证：头部企业AI落地的核心竞争力，不在于单芯片硬件极致性能，而在于存、算、安的全域生态协同能力。当前算力生态普遍存在结构性割裂，海量数据沉淀闲置、无法融入算力调度体系，导致昂贵的GPU算力因数据供给链路不通、生态适配不足难以满血发挥。这也让存储彻底跳出传统硬件配套的配角定位，成为贯穿算力生态、决定集群整体效率与综合成本的核心关键。

算力生态的短板，不只是芯片间的软件栈割裂，更是计算与存储之间的协同断裂。FlagOS统一智算底座解决的是前者——让不同架构的芯片跑通同一套软件；而存储协同优化要解决的是后者——让海量数据在正确的时间出现在正确的位置，把GPU从“等数据”的状态中解放出来。两块短板补齐，算力生态才算真正闭环。

美国数据编排公司Hammerspace将展出高性能全局数据平台，正是针对这一痛点的解题思路。其核心突破在于Tier 0功能，能将任意厂商的NVMe存储瞬间转化为超高性能存储层，无需淘汰现有设备。实测数据显示，客户可在1.5天内激活20PB的Tier 0容量，实现100%线速性能，GPU利用率提升40%以上，每TB基础设施成本降低50%。

该平台的独特性体现在统一全局命名空间，在边缘、数据中心与云端构建无缝数据视图；智能数据编排引擎，通过自动化数据移动让数据在正确时间出现在正确位置；完全基于pNFS、NFS、SMB、S3等标准协议，无代理架构不侵入GPU节点，降低耦合与运维风险；策略驱动的自动化编排可将10多个存储平台收敛为1个统一数据管理平台。

这条路目前看，已经初步走通，I/O墙已被局部击穿，形成阶段性解决方案。

工程落地：单Token成本如何从130万压到35万？

技术再好，落不了地便无意义。WAIC 2026展览层呈现的，正是从概念到工程的关键一跃。

算力调度是降本的第一把钥匙。此次无问芯穹带来智能体时代的“Token超级工厂”，围绕“前店后厂一中心”的全栈技术布局，集中呈现自主可控的Agentic Infra自主式基础设施与Agentic MaaS大模型服务平台，以及AI生产力应用展示。通过跨集群异构PD分离技术，结合自研的全栈推理优化工具，在万亿参数级模型上，推理成本较传统单实例模式降低10倍，实现从国产算力到AI应用生产力转化效率的极致重塑。、

安全脱敏智能体InfiniClawBox

散热与网络，是另外两个被忽视的降本杠杆。即将展出的立讯“Shanghai Cube”单柜128卡液冷机柜已真实运行DeepSeek 671B大模型。单柜功率密度突破100kW，传统风冷方案通常止步于20-30kW/柜，超出这一上限后，液冷不再是可选项，而是唯一出路。实测数据显示，液冷方案可将PUE值降至1.05以下，相比传统风冷数据中心节能40%以上。

在大规模超集群工程落地层面，中科曙光携scaleX万卡超集群重磅亮相，依托自研开放AI架构，兼容多品牌国产加速卡与CUDA生态，总算力突破5 EFlops，首创超算、AI双计算融合范式，支持8–64位全精度运算，凭借scaleFabric无损高速网络解决十万卡集群调度难题，搭配自研浸没式液冷实现1.04低PUE。

scaleX万卡超集群

同场新华三业界单芯片带宽最高的102.4T智算交换机，一跳直接降低延迟。在大规模分布式训练中，网络拥塞导致的算力损耗可高达30%以上。新华三通过算网协同调优，使训练性能提升30%、模型训练用时缩短25%，同样的硬件投入获得更多有效产出，单Token成本随之下降。

AI芯片高速互联创新技术架构

从超节点降损耗、光互连降能耗，到中间层降适配成本、统一存储降资源消耗，全链路在做同一件事，那就是把单Token的综合成本压下来。这才是算力从“造得出”到“用得起”的真正跨越。

系统为王：从单卡竞赛到系统级国力竞争

中国算力正从“堆卡时代”迈向“系统时代”，单芯片逼近物理极限，系统级协同创新成为下一代算力竞争的关键。

上海已建成承载16万P异构算力的统一算力调度平台、每年10亿元算力券、全产业链支撑底座，形成独有的系统级集群优势，既是产业制高点的底气，也为国家算力自主可控贡献“上海方案”。

而本届WAIC集中呈现的中国算力基础设施完整自主技术图谱——超节点集群、光互连技术、跨芯片统一算力基座，不只是算力的“量”，更是算力的“魂”。

附录：WAIC 2026算力论坛