算力内卷时代,“开放架构”万卡超集群为何成刚需?
作者:Max
现如今,要做一个AI大模型需要准备什么?这背后可能上百个技术专家,数以亿计的资金,但最重要的,是需要庞大的算力支持。
有机构曾做了一个统计,要做一个ChatGPT级别的AI大模型,至少需要1万枚英伟达的H100加速卡,也可以说,有1万卡加速卡才能摸到Moe万亿参数自研大模型门槛。
而随着ChatGPT、文生视频等AI应用迅速普及,各行业对算力的需求呈指数级增长。IDC预测,到2028年,中国智能算力需求将达到2781EFLOPS规模,年均增长率高达46.2%。然而,传统的计算集群在规模扩大到数千张卡之后,就会遇到难以逾越的瓶颈。
如何提升算力资源利用率与降低运营成本?如何让头部之下的企业也能用得起大规模算力?在这背后,“万卡超集群”成为了这个时代答案。
2025年12月18日,在光合组织2025人工智能创新技术大会(HAIC2025)上,中科曙光发布了曙光scaleX万卡超集群系统,引起了市场广泛关注。
“scaleX万卡超集群,是曙光发挥大型计算机系统研制经验优势,面向万亿参数大模型、科学智能等复杂任务场景打造的大规模智能算力基础设施方案”。中科曙光高级副总裁李斌表示,面对人工智能基础设施对性能、效率、可靠性、可扩展性等方面的极致需求,scaleX万卡超集群在超节点架构、高速互连网络、存储性能优化、系统管理调度等方面实现了多项创新突破,部分技术与能力已超越海外将于2027年推出的NVL576。

据了解,此次曙光scaleX万卡超集群发布,可以说是国产万卡级超集群真机的首秀,这一系统由16个超节点通过自主研发高速网络连接而成,可支持10240张AI加速卡协同工作,其亮相标志着国产大规模算力集群技术进入新阶段。
“万卡超集群”为何成为时代刚需?
根据中国互联网络信息中心统计,截至2025年6月,中国生成式人工智能用户规模达5.15亿人,较2024年12月增长2.66亿人,用户规模半年翻番,普及率为36.5%。这些用户中,超过三分之二(67.7%)人数每天都会使用AI生成,AI使用量正在激增。
在算力领域,这就好比每天有数百万辆汽车同时上路,原来的双车道乡村公路显然无法承受。传统计算集群在应对千卡、万卡规模任务时,出现了明显的“交通拥堵”:通信延迟高、并行效率低、能耗成本急剧攀升。
另一方面,AI厂商们为了应对时代需求,基础大模型的参数规模不断膨胀,模型训练、精调过程所需的数据量也在快速增长,同时,在自动驾驶、工业制造、生物医药等领域的AI应用率提高,涵盖文本、图像、视频等多模态数据处理任务,这些都需要更强的算力性能和效率支撑。在这一背景下,“万卡超集群”应运而生。
什么是“万卡超集群”?简单来说,其就是由超过一万张加速卡(如GPU、TPU或专用AI芯片)组成的高性能计算系统,主要用于加速人工智能模型的训练和推理。
具体从曙光scaleX万卡超集群系统的技术特点上看,主要有以下优势:
优势1:全球首创单机柜级640卡超节点。scaleX万卡超集群由16个曙光scaleX640超节点通过scaleFabric高速网络互连而成,可实现10240块AI加速卡部署,总算力规模超5EFlops。scaleX640采用超高密度刀片、浸没相变液冷等技术,将单机柜算力密度提升20倍,PUE值低至1.04。

优势2:自主研发原生RDMA高速网络。曙光scaleFabric网络,基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片,可实现400Gb/s超高带宽、低于1微秒端侧通信延迟,超节点间的通信性能达到业内领先水平,充分释放万卡超集群算力,并可将超集群规模轻松扩展至10万卡以上,相比传统IB网络提升2.33倍,同时网络总体成本降低30%。
优势3:存、算、传紧耦合深度优化。通过“超级隧道”、AI数据加速等设计,实现从芯片级、系统级到应用级的三级数据传输协同优化,使存力平台高效应对大模型训练时万卡并发读写带宽极致需求挑战,并可将AI加速卡资源利用率提高55%。
优势4:超集群数字孪生与智能调度。通过物理集群数字孪生,实现故障定位、修复等全流程可视化智能管理;智能化运维平台可支撑集群长期可用性达99.99%;智能调度引擎可管理万级节点、服务十万级用户,支持每秒万级作业调度。
开放架构,助力国产AI生态发展
作为 “AI计算开放架构”最新重磅成果,scaleX万卡超集群可支持多品牌加速卡以及主流计算生态,并实现400+主流大模型、世界模型等适配优化。
据了解,“AI计算开放架构” 由中科曙光协同20多家AI产业链企业共同推出,以共享若干关键共性技术能力,依托系统工程思维推进智算集群创新。通过scaleX万卡超集群,AI企业可降低智算集群研发门槛,并从技术“单点突围”走向产业“生态共进”,将开放理念转化为可落地普惠算力。

回到此次HAIC2025上,除了曙光scaleX万卡超集群系统的首秀发布之外,中科曙光也让市场看到了其在算力行业长期以来的思考。
这种“类安卓”的开放模式,给予了用户更大的选择权,避免了被单一厂商技术锁定的风险。同时积极兼容主流AI开发框架,并致力于推动国产软硬件生态的适配与优化。这降低了开发者和应用迁移门槛,有利于吸引更广泛的生态伙伴共同参与,形成繁荣的产业生态。
另一方面,可以解决芯片与基础软件协同、模型-硬件适配优化等难题,破解“硬件墙”“生态墙”壁垒,让算力资源更加“普惠化”。而基于scaleX万卡超集群强大性能,其价值最终也会体现在推动实际应用与行业创新上,且在大模型训练与推理、在科学智能、数字孪生与智能制造、金融赋能等应用场景已远超一般人的想象。
结语:
曙光万卡超集群的发布,意义不仅仅在于发布了一款高性能产品,更体现了从硬件堆叠到系统级协同的范式转变。其真正价值在于通过开放架构和软硬一体化设计,让大规模算力从“昂贵奢侈品”逐渐走向“可规模化部署的公共服务”,为国内AI产业生态的自主演进提供了关键支撑。
财经号声明: 本文由入驻中金在线财经号平台的作者撰写,观点仅代表作者本人,不代表中金在线立场。仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。同时提醒网友提高风险意识,请勿私下汇款给自媒体作者,避免造成金钱损失,风险自负。如有文章和图片作品版权及其他问题,请联系本站。
