首页 手机网 财经号下载
入驻财经号 登录 客服 |
首页> 财经> 正文

MiniMax M3正式发布 CUDA内核加速达9.4倍

财经号APP
财复视界财复视界 2026-06-02 16:30:27 136
分享到:

  6月1日,MiniMax正式发布新一代旗舰大模型MiniMax M3。这家已于上周向上海证监局提交上市辅导备案的公司,在儿童节当天公布了一系列技术指标。

  在真实软件工程能力基准SWE-Bench Pro上,MiniMax M3的表现小幅度超过GPT-5.5和Gemini 3.1 Pro,接近Claude Opus 4.7。模型采用全新稀疏注意力架构MSA(MiniMax Sparse Attention),这一架构的引入让MiniMax M3得以支持100万上下文窗口。与上一代采用全注意力机制的MiniMax M2相比,M3在预填充阶段实现超过9倍的加速倍率,解码阶段加速倍率超过15倍。模型在100万上下文长度下,M3每token计算量仅为上代模型的二十分之一。

  但更值得关注的,是M3在模型自主迭代能力上的突破。

  12小时无人干预,从零训练4个模型

  在考察模型后训练能力的PostTrainBench测试中,研究团队给M3设定了一项挑战:12小时内,从零开始训练4个仅有预训练基座的模型。全程无人干预,M3自主完成了“数据合成—训练—评测—迭代”的完整闭环。

  最终,这4个模型在数学推理、工具调用、代码生成等五项任务上习得基本能力。M3最终得分0.37,仅次于GPT-5.5(0.39)与Opus 4.7(0.42),并大幅领先其他参评模型。

  在另一项测试中,M3连续工作24小时,完成147次benchmark提交、1959次工具调用,将Hopper FP8硬件峰值利用率从首版的7.6%提升至71.3%,实现相较于原始版本9.4倍的CUDA内核加速。

  MSA稀疏注意力:计算量削减95%

  M3在架构层面的创新值得深入分析。上一代M2选择回归全注意力机制,MiniMax彼时给出的理由是基础设施成熟度不足、评估困难等。到了M3,团队推出了自研的MSA稀疏注意力方案。

  全注意力机制的计算复杂度呈平方级增长,稀疏注意力通过引入初筛环节缓解这一问题。与DSA、MoBA等现有方案相比,MSA能够更精确地对KV进行分块,实现更高的有效上下文覆盖。与此同时,MiniMax团队在算子层面采用“KV outer gather Q”策略——每个块仅读取一次,访存连续。在M3当前的head配比下,这一设计的计算访存比优于主流方法,比开源的Flash-Sparse-Attention和FlashMoBA快4倍以上。

  在100万上下文长度下,M3每token计算量仅为上代模型的二十分之一,预填充阶段加速超9倍,解码阶段加速超15倍。多个对照实验显示,MSA的绝大部分能力可与全注意力机制持平。

  原生多模态:视觉描述详尽,推理能力待提升

  M3是一个从“Step 0”开始进行多模态混合训练的原生多模态模型,支持图片和视频输入,并能操作电脑桌面。在多模态测试集OmniDocBench上,M3得分超过Gemini 3.1 Pro;在面向自主Agent的端到端评测框架Claw-Eval上,MiniMax M3获得最高分。

  在多模态任务中,M3的表现并不均衡。在地点识别任务中,模型对图片内容进行了详细分析,能够观察到高楼层、防尘网等细节,但在缺乏具体地理标志物的情况下,无法直接锁定具体位置。而在需要结合常识推理的视觉问答任务上,与头部模型相比仍存在一定差距。总体而言,M3原生多模态的视觉描述能力扎实,但推理能力仍有提升空间。

  编程Agent:理解协作流程,完成度有待提升

  编程与Agent能力是M3本次性能提升的重点。MiniMax指出,主流编程测试基准存在明显局限——假设任务为单轮完成。但实际开发场景中,开发者往往需要反复沟通需求、持续调整方案、多任务并行推进。

  为缩小测试基准与真实体验之间的差距,MiniMax构建了一个交互式用户模拟器框架,使模型在训练及评测阶段即可接触更接近实际工作环境的交互场景。

  从实际测试来看,M3在编程Agent任务中表现出了对真实协作流程的理解。在网页游戏生成任务中,模型能够完成基础的视觉呈现;在更复杂的协作系统开发任务中,M3会主动与用户讨论技术选型,给出完整的项目规划,同时考虑单元测试环节及关键风险点。从执行过程来看,M3能够在任务中不断反思、修改代码,展现出自我纠错与持续优化能力。总体而言,M3在编程Agent任务中确实理解并模拟了真实协作流程——能够主动沟通、迭代优化,但任务的完成度仍有提升空间。

  结语:架构创新成突围方向,商业化考验尚待跨越

  M3发布的时间点值得注意。就在上周,MiniMax向上海证监局提交了上市辅导备案报告,开启A股上市进程。

  从技术层面看,从M2回归全注意力到M3推出MSA稀疏注意力,MiniMax在架构创新上的探索正在见效。M3的API定价也已公布:512k以内上下文,标准模式下输入价格为2.1元/百万tokens、输出价格为8.4元/百万tokens,缓存读取价格为0.42元/百万tokens,上线初期提供7天限时五折优惠。MiniMax Code计划在未来开源。

  越来越多中国大模型厂商正通过架构维度的创新实现突围。稀疏注意力、原生多模态混合训练、Agent端到端能力——这些技术方向预计将成为下一阶段大模型发展的主流趋势。但对MiniMax而言,技术实力能否转化为可持续的商业收入和盈利能力,仍是资本市场关注的焦点。上市辅导备案已提交,市场等待的是可验证的商业化成果,而不仅是技术参数。

  

财经号声明: 本文由入驻中金在线财经号平台的作者撰写,观点仅代表作者本人,不代表中金在线立场。仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。同时提醒网友提高风险意识,请勿私下汇款给自媒体作者,避免造成金钱损失,风险自负。如有文章和图片作品版权及其他问题,请联系本站。

0条评论 网友评论文明上网,理性发言

中金登录 微博登录 QQ登录

    查看更多评论

    举报此人

    X
    确认
    取消

    热门视频换一批

    温馨提示

    由于您的浏览器非微信客户端浏览器,无法继续支付,如需支付,请于微信中打开链接付款。(点击复制--打开微信--选择”自己“或”文件传输助手“--粘贴链接--打开后付款)

    或关注微信公众号<中金在线>底部菜单”名博看市“,搜索您要的作者名称或文章名称。给您带来的不便尽请谅解!感谢您的支持!

    复制链接

    鲜花打赏 X

    可用金币:0

    总支付金额:0

    您还需要支付0
    我已阅读《增值服务协议》
    确认打赏

    1鲜花=0.1元人民币=1金币    打赏无悔,概不退款

    举报文章问题 X
    参考地址

    其他问题,我要吐槽

    确定

    温馨提示

    前往财经号APP听深入解析

    取消 确认