MiniMax M3正式发布 CUDA内核加速达9.4倍

财经号APP

财复视界 2026-06-02 16:30:27

136

分享到：

6月1日，MiniMax正式发布新一代旗舰大模型MiniMax M3。这家已于上周向上海证监局提交上市辅导备案的公司，在儿童节当天公布了一系列技术指标。

在真实软件工程能力基准SWE-Bench Pro上，MiniMax M3的表现小幅度超过GPT-5.5和Gemini 3.1 Pro，接近Claude Opus 4.7。模型采用全新稀疏注意力架构MSA（MiniMax Sparse Attention），这一架构的引入让MiniMax M3得以支持100万上下文窗口。与上一代采用全注意力机制的MiniMax M2相比，M3在预填充阶段实现超过9倍的加速倍率，解码阶段加速倍率超过15倍。模型在100万上下文长度下，M3每token计算量仅为上代模型的二十分之一。

但更值得关注的，是M3在模型自主迭代能力上的突破。

12小时无人干预，从零训练4个模型

在考察模型后训练能力的PostTrainBench测试中，研究团队给M3设定了一项挑战：12小时内，从零开始训练4个仅有预训练基座的模型。全程无人干预，M3自主完成了“数据合成—训练—评测—迭代”的完整闭环。

最终，这4个模型在数学推理、工具调用、代码生成等五项任务上习得基本能力。M3最终得分0.37，仅次于GPT-5.5（0.39）与Opus 4.7（0.42），并大幅领先其他参评模型。

在另一项测试中，M3连续工作24小时，完成147次benchmark提交、1959次工具调用，将Hopper FP8硬件峰值利用率从首版的7.6%提升至71.3%，实现相较于原始版本9.4倍的CUDA内核加速。

MSA稀疏注意力：计算量削减95%

M3在架构层面的创新值得深入分析。上一代M2选择回归全注意力机制，MiniMax彼时给出的理由是基础设施成熟度不足、评估困难等。到了M3，团队推出了自研的MSA稀疏注意力方案。

全注意力机制的计算复杂度呈平方级增长，稀疏注意力通过引入初筛环节缓解这一问题。与DSA、MoBA等现有方案相比，MSA能够更精确地对KV进行分块，实现更高的有效上下文覆盖。与此同时，MiniMax团队在算子层面采用“KV outer gather Q”策略——每个块仅读取一次，访存连续。在M3当前的head配比下，这一设计的计算访存比优于主流方法，比开源的Flash-Sparse-Attention和FlashMoBA快4倍以上。

在100万上下文长度下，M3每token计算量仅为上代模型的二十分之一，预填充阶段加速超9倍，解码阶段加速超15倍。多个对照实验显示，MSA的绝大部分能力可与全注意力机制持平。

原生多模态：视觉描述详尽，推理能力待提升

M3是一个从“Step 0”开始进行多模态混合训练的原生多模态模型，支持图片和视频输入，并能操作电脑桌面。在多模态测试集OmniDocBench上，M3得分超过Gemini 3.1 Pro；在面向自主Agent的端到端评测框架Claw-Eval上，MiniMax M3获得最高分。

在多模态任务中，M3的表现并不均衡。在地点识别任务中，模型对图片内容进行了详细分析，能够观察到高楼层、防尘网等细节，但在缺乏具体地理标志物的情况下，无法直接锁定具体位置。而在需要结合常识推理的视觉问答任务上，与头部模型相比仍存在一定差距。总体而言，M3原生多模态的视觉描述能力扎实，但推理能力仍有提升空间。

编程Agent：理解协作流程，完成度有待提升

编程与Agent能力是M3本次性能提升的重点。MiniMax指出，主流编程测试基准存在明显局限——假设任务为单轮完成。但实际开发场景中，开发者往往需要反复沟通需求、持续调整方案、多任务并行推进。

为缩小测试基准与真实体验之间的差距，MiniMax构建了一个交互式用户模拟器框架，使模型在训练及评测阶段即可接触更接近实际工作环境的交互场景。

从实际测试来看，M3在编程Agent任务中表现出了对真实协作流程的理解。在网页游戏生成任务中，模型能够完成基础的视觉呈现；在更复杂的协作系统开发任务中，M3会主动与用户讨论技术选型，给出完整的项目规划，同时考虑单元测试环节及关键风险点。从执行过程来看，M3能够在任务中不断反思、修改代码，展现出自我纠错与持续优化能力。总体而言，M3在编程Agent任务中确实理解并模拟了真实协作流程——能够主动沟通、迭代优化，但任务的完成度仍有提升空间。

结语：架构创新成突围方向，商业化考验尚待跨越

M3发布的时间点值得注意。就在上周，MiniMax向上海证监局提交了上市辅导备案报告，开启A股上市进程。

从技术层面看，从M2回归全注意力到M3推出MSA稀疏注意力，MiniMax在架构创新上的探索正在见效。M3的API定价也已公布：512k以内上下文，标准模式下输入价格为2.1元/百万tokens、输出价格为8.4元/百万tokens，缓存读取价格为0.42元/百万tokens，上线初期提供7天限时五折优惠。MiniMax Code计划在未来开源。

越来越多中国大模型厂商正通过架构维度的创新实现突围。稀疏注意力、原生多模态混合训练、Agent端到端能力——这些技术方向预计将成为下一阶段大模型发展的主流趋势。但对MiniMax而言，技术实力能否转化为可持续的商业收入和盈利能力，仍是资本市场关注的焦点。上市辅导备案已提交，市场等待的是可验证的商业化成果，而不仅是技术参数。

分享收藏举报

标签1：模态原生架构流程解码

财经号声明：本文由入驻中金在线财经号平台的作者撰写，观点仅代表作者本人，不代表中金在线立场。仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。同时提醒网友提高风险意识，请勿私下汇款给自媒体作者，避免造成金钱损失，风险自负。如有文章和图片作品版权及其他问题，请联系本站。

0条评论网友评论文明上网，理性发言

查看更多评论

MiniMax M3正式发布 CUDA内核加速达9.4倍

0条评论网友评论文明上网，理性发言

举报此人

财复视界

推荐财经号换一批

热门视频换一批

友情链接

温馨提示

鲜花打赏 X

温馨提示

MiniMax M3正式发布 CUDA内核加速达9.4倍

0条评论 网友评论文明上网，理性发言

举报此人

财复视界

推荐财经号 换一批

热门视频换一批

友情链接

温馨提示

鲜花打赏 X

温馨提示

0条评论网友评论文明上网，理性发言

推荐财经号换一批