首页 手机网 财经号下载
入驻财经号 登录 客服 |
首页> 财经> 正文

超聚变FusionOne AI单机跑满血DeepSeek

财经号APP
智能相对论智能相对论 2025-03-24 21:11:22 1063
分享到:

  如今,人工智能发展迅猛,大模型更是成为推动AI技术进步的“引擎”。然而,随着模型参数量的激增,算力需求也呈指数级增长,如何高效、低成本地运行大模型成为行业面临的共同挑战。

  以DeepSeek R1满血大模型为例,其参数量高达6710亿,由于其采用了前沿的MLA注意力机制、共享专家和路由专家共同组成的混合专家(MoE)架构,在提升推理效能方面成果显著,但是企业在实际应用过程中,对大模型的性价比有着更为极致的追求。

  近日,超聚变FusionOne AI大模型一体机通过软硬协同,深度调优,成功打破了H20运行DeepSeek满血大模型的性能天花板。在模拟问题对话场景(上下文序列长度1K/1K)下,仅需1台FusionServer G8600搭载8张H20硬件,即可流畅运行DeepSeek R1满血版,支持1024并发访问数,总吞吐量高达6335 token/s,性能领先业内H20方案60%。其中,TPOT(Time per Output Token)时延相比业内H20方案减少40%,单台FusionOne AI大模型一体机即可支撑数千人规模企业使用,将单机H20运行大模型的性能推向新高度。

  

  软硬协同调优,打破 H20 性能天花板

  •   算力释放,显存最优分配:通过内核优化,提升显存空间利用率20%,KV cache池使用率提升至93%,保障模型参数、过程KV高效运行

  •   数据、模型并行调度:通过DP数据并行、TP模型张量并行技术,调度多卡分布式并行计算,提升token产生的吞吐效率50%,有效提升计算效能

  •   推理任务切片混合调度:Prefill阶段(首token输出阶段任务)长文本切片, 加速初始内容生成速度,同时在每个切片计算过程中,混合调度Decode任务(后续token迭代生成任务)并行运行, 无需串行等待,提高资源利用率,降低TTFT(Time to First Token)和TPOT(Time per Output Token )。

  超聚变FusionOne AI大模型一体机以极致成本、性能跃升的双重突破,大幅降低DeepSeek-R1 671B模型的部署门槛,以普惠形态让更多企业和科研机构能够轻松应用。未来,超聚变将持续加大研发投入,聚焦AI算力优化与应用拓展,加速企业AI应用落地。

  *本文图片均来源于网络

  

  

财经号声明: 本文由入驻中金在线财经号平台的作者撰写,观点仅代表作者本人,不代表中金在线立场。仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。同时提醒网友提高风险意识,请勿私下汇款给自媒体作者,避免造成金钱损失,风险自负。如有文章和图片作品版权及其他问题,请联系本站。

0条评论 网友评论文明上网,理性发言

中金登录 微博登录 QQ登录

    查看更多评论

    举报此人

    X
    确认
    取消

    热门视频换一批

    温馨提示

    由于您的浏览器非微信客户端浏览器,无法继续支付,如需支付,请于微信中打开链接付款。(点击复制--打开微信--选择”自己“或”文件传输助手“--粘贴链接--打开后付款)

    或关注微信公众号<中金在线>底部菜单”名博看市“,搜索您要的作者名称或文章名称。给您带来的不便尽请谅解!感谢您的支持!

    复制链接

    鲜花打赏 X

    可用金币:0

    总支付金额:0

    您还需要支付0
    我已阅读《增值服务协议》
    确认打赏

    1鲜花=0.1元人民币=1金币    打赏无悔,概不退款

    举报文章问题 X
    参考地址

    其他问题,我要吐槽

    确定

    温馨提示

    前往财经号APP听深入解析

    取消 确认