大模型持续迭代 算力需求不升反降
近期,深度求索(DeepSeek)发布第二代开源模型。其创新的模型结构,引发了市场对于算力需求究竞将如何演进的广泛讨论。公司在模型架构侧的创新表观上实现了推理时大幅降低KV Cache 访存开销且不增加额外计算量,看似对硬件有“降规"指引,但是,更低的推理成本会在中长期维度激发更多需求,反哺算力硬件市场增长。同时,大模型厂商推理环节的盈利能力正逐步改善,算力硬件需求持续性较高。
MLA 创新架构使推理任务中占用的KV Cache 大幅降低
提高硬件利用效率。在主流Transformer 网络结构中,多头注意力机制Muli-HeadAttenion(MHA)是重要的织成部分。为了大幅简化无效重复计算,一般采用缓存MHA 中Key 和Value 的方法(KV Cache)米优化推理任务效率。但随着输入上下文窗口长度的增加,传统MHA 中的KV Cache 数据量会大幅增长,给推理任务访存制造了瓶颈。DeepSeek-V2 模型通过引入Multi-Head Lalent Altenion(MLA)将KV 矩阵乐缩到潜在空间米大幅降低所需缓存的数据量,且并不引入额外计算开销,巧妙的降低了推理成本,但在训练端,MLA结构会引入额外计算。针对优化训练成本和效率的问题,DeepSeek-V2 则是在前馈网络中引入并改进了MoE 架构。
大模型厂商推理环节的盈利能力正向改善,驱动生成式A商业闭环落地
针对推理环节,虽然大模型厂商AP!的收费标准有所下降,但算力硬件表现提升(TCO 的下降)叠加算法工程优化正同步发生,根据我们测算,大模型厂商在推理侧的盈利能力整体显现正向改善的趋势。展望未来,考虑到前期训练硬件基础设施相对海量的前置成本,大模型厂商AP!收费标准下调空间有限,伴随着硬件侧算力的提升以及HBM 的持续迭代,以及工程优化手段不断涌现,大模型厂商盈利能力有望逐步转正,进一步推动生成式A| 产业实现商业闭环,反哺算力硬件需求。
财经号声明: 本文由入驻中金在线财经号平台的作者撰写,观点仅代表作者本人,不代表中金在线立场。仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。同时提醒网友提高风险意识,请勿私下汇款给自媒体作者,避免造成金钱损失,风险自负。如有文章和图片作品版权及其他问题,请联系本站。
