首页 手机网
入驻财经号 登录 客服 |
首页> 股票> 正文

快手Kwaipilot团队全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10

财经号APP
港股挖掘机港股挖掘机 2025-04-24 15:00:21 559
分享到:

4月23日,快手Kwaipilot团队发布全新大模型训练方法SRPO并宣布开源。该方法仅用 GRPO 1/10的训练成本,在数学与代码双领域基准测试中实现性能突破:AIME2024 得分50,LiveCodeBench 得分41.6,成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的方法。

快手 Kwaipilot 团队在最新研究成果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化(two-Staged history-Resampling Policy Optimization ,SRPO),这是业界首个同时在数学和代码两个领域复现 DeepSeek-R1-Zero 性能的方法。通过使用与 DeepSeek 相同的基础模型 (Qwen2.5-32B) 和纯粹的强化学习训练,SRPO 成功在 AIME24 和 LiveCodeBench 基准测试中取得了优异成绩(AIME24 = 50、LiveCodeBench = 41.6),超越了 DeepSeek-R1-Zero-32B 的表现。更值得注意的是,SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。

image.png

图:SRPO AIME24 和 LiveCodeBench 表现,每项为 pass@1 的32 次平均得分

技术报告中,快手Kwaipilot团队实现了一种两阶段训练范式,有效解决数学和代码之间内在的响应长度冲突问题。实验表明,两阶段训练在数学和编程领域均表现出优异的结果。该模型在解决数学问题时始终如一地生成详细的逐步推理模式,并在处理编程任务时生成结构化的推理模式。

1.png

图:不同训练数据策略对响应长度的影响

在训练的中后期阶段,快手 Kwaipilot 团队创新性地引入了历史重采样(History Resampling)实现动态采样,确保了在每个训练步骤中梯度更新始终有效,从而直接提高了信息梯度的比例。与DAPO中提出的Dynamic Sampling方法相比,History Resampling显著提高了计算效率,响应长度增长也更加稳定。

2.png

图:Training statistics of History Resampling

更令人惊喜的是,在训练过程中模型的自我反思、纠正和回溯频率逐渐增加,在训练后期,模型已经会借助程序性思维进行自我纠错和多次尝试,掌握了广泛思考和综合运用多种代码思维进行问题求解的能力。

3.png

目前,快手Kwaipilot团队已将SRPO-Qwen-32B模型开源,希望这一成果能够为社区在构建更强大的推理模型方面提供有力支持。未来,他们将持续探索数据与模型的扩展、更高效的强化学习算法以及SRPO在更广泛的推理场景中的应用。

财经号声明: 本文由入驻中金在线财经号平台的作者撰写,观点仅代表作者本人,不代表中金在线立场。仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。同时提醒网友提高风险意识,请勿私下汇款给自媒体作者,避免造成金钱损失,风险自负。如有文章和图片作品版权及其他问题,请联系本站。

0条评论 网友评论文明上网,理性发言

中金登录 微博登录 QQ登录

    查看更多评论

    举报此人

    X
    确认
    取消

    热门视频换一批

    温馨提示

    由于您的浏览器非微信客户端浏览器,无法继续支付,如需支付,请于微信中打开链接付款。(点击复制--打开微信--选择”自己“或”文件传输助手“--粘贴链接--打开后付款)

    或关注微信公众号<中金在线>底部菜单”名博看市“,搜索您要的作者名称或文章名称。给您带来的不便尽请谅解!感谢您的支持!

    复制链接

    鲜花打赏 X

    可用金币:0

    总支付金额:0

    您还需要支付0
    我已阅读《增值服务协议》
    确认打赏

    1鲜花=0.1元人民币=1金币    打赏无悔,概不退款

    举报文章问题 X
    参考地址

    其他问题,我要吐槽

    确定

    温馨提示

    前往财经号APP听深入解析

    取消 确认