首页 手机网
入驻财经号 登录 客服 |
首页> 股票> 正文

西部证券:OpenAI联合巨头发布MRC协议,破解万卡集群通信瓶颈

财经号APP
财中社财中社 2026-05-08 09:57:09 458
分享到:

5月8日,OpenAI等发布开源网络协议MRC,提升万卡集群的效率,实现多路径并行传输,破解AI大模型训练时的通信瓶颈。

OpenAI与AMD、博通、英特尔、微软、英伟达等芯片与云厂商巨头联合发布全新开放网络协议MRC(多路径可靠连接),可帮助大型AI训练集群更快、更可靠地运行。在训练前沿大型人工智能模型时,单个步骤可能涉及数百万次数据传输。一次传输延迟可能会影响整个训练任务,甚至导致GPU闲置。网络拥塞、链路故障和设备故障是造成数据传输延迟和抖动的最常见原因。

随着集群规模的增大,这些问题会变得更加频繁,也更难解决。为实现星际之门超级计算机目前规模,两大关键的网络挑战,一是需要尽可能减少网络拥塞的可能性,二是需要尽可能降低网络故障对训练任务本身的影响,在足够大的规模下,即使是最好的网络也会持续存在链路和交换机故障。

MRC通过多平面网络设计疏通网络,进一步提升训练前沿大模型的能力。该协议是一种内置于最新800Gb/s网络接口中的新网络协议,可将单次数据传输分流至数百条路径、微秒级绕开故障链路,同时还能简化网络控制面架构。该协议扩展了基于融合以太网的RDMA(RoCE)——一项InfiniBand贸易协会(IBTA)标准,该标准支持GPU和CPU之间硬件加速的远程直接内存访问,借鉴了超以太网联盟(UEC)开发的技术,并利用基于SRv6的源路由对其进行了扩展,以支持大规模AI网络架构。

MRC已部署在用于训练前沿模型的所有OpenAI大型NVIDIAGB200超级计算机上,包括位于德克萨斯州阿比林的Oracle云基础设施(OCI)站点以及微软的Fairwater超级计算机,用于训练多个OpenAI模型,并利用了NVIDIA和Broadcom的硬件。目前,MRC规范已作为开放计算项目(OCP)的贡献提供给社区使用和开发。

财经号声明: 本文由入驻中金在线财经号平台的作者撰写,观点仅代表作者本人,不代表中金在线立场。仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。同时提醒网友提高风险意识,请勿私下汇款给自媒体作者,避免造成金钱损失,风险自负。如有文章和图片作品版权及其他问题,请联系本站。

0条评论 网友评论文明上网,理性发言

中金登录 微博登录 QQ登录

    查看更多评论

    举报此人

    X
    确认
    取消

    热门视频换一批

    温馨提示

    由于您的浏览器非微信客户端浏览器,无法继续支付,如需支付,请于微信中打开链接付款。(点击复制--打开微信--选择”自己“或”文件传输助手“--粘贴链接--打开后付款)

    或关注微信公众号<中金在线>底部菜单”名博看市“,搜索您要的作者名称或文章名称。给您带来的不便尽请谅解!感谢您的支持!

    复制链接

    鲜花打赏 X

    可用金币:0

    总支付金额:0

    您还需要支付0
    我已阅读《增值服务协议》
    确认打赏

    1鲜花=0.1元人民币=1金币    打赏无悔,概不退款

    举报文章问题 X
    参考地址

    其他问题,我要吐槽

    确定

    温馨提示

    前往财经号APP听深入解析

    取消 确认