停更近五个月,这次梁文锋携DeepSeek V4绝地反击?黄仁勋都觉得“可怕”
本文来源:时代财经 作者:庞宇 林心林
图源:AI生图
蛰伏近5个月,DeepSeek终于迎来新一轮重磅迭代。
4月24日,DeepSeek-V4 Preview正式上线并开源,该版本分为Pro和Flash两款,分别对应官方网页端、App界面的专家模式与快速模式。
从技术迭代方向来看,DeepSeek-V4 在模型参数体量与实际能力上实现不小突破。
DeepSeek官方测评显示,V4-Pro在Agentic Coding、世界知识、数学、STEM和竞赛级代码等测评中,达到当前开源模型领先水平,并在部分指标上比肩顶尖闭源模型。
此次备受关注的V4版本发布,较市场此前预期的“春节前后”节点晚了数月。而在这段时间里,大模型行业竞争空前激烈,部分大模型甚至以“月更”为节奏高频持续上新,DeepSeek却一直悄无声息。
这家凭借低成本、高性能和开源打出辨识度的明星大模型企业,则一边因新模型“停更”“跳票”身陷舆论讨论,一边又被卷入人才流动和融资传闻。
时代财经注意到,深度求索官方在DeepSeek-V4官宣文稿末尾,特意援引了《荀子·非十二子》的名句“不诱于誉,不恐于诽,率道而行,端然正己。”这十六个字表述,似乎是其对近期外界种种声音作出的间接回应。
V4姗姗来迟,在华为昇腾平台首发
“从现在开始,1M上下文将是DeepSeek所有官方服务的标配。”深度求索方面介绍,DeepSeek-V4模型按大小分为DeepSeek-V4-Pro、DeepSeek-V4-Flash两个版本,上下文长度均为1M(一百万)。
长上下文能力已非大模型行业的新鲜事。过去一年,国内外头部模型厂商几乎都在持续拉长上下文窗口。V4更受关注的,是其通过结构创新实现推理成本大幅降低。
DeepSeek在官方文章中表示,V4开创了一种全新的注意力机制,在token维度进行压缩,结合DSA稀疏注意力(DeepSeek Sparse Attention),既实现全球领先的长上下文能力,又相较于传统方法大幅降低了对计算和显存的需求。
而V4更大的亮点在于Agent能力的显著提高。
在Agentic Coding评测中,V4-Pro已达到当前开源模型最佳水平。“目前DeepSeek-V4已成为公司内部员工使用的Agentic Coding模型,据评测反馈使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式,但仍与其思考模式存在一定差距。”
在世界知识测评中,V4-Pro大幅领先其他开源模型,仅稍逊于顶尖闭源模型Gemini-Pro-3.1。此外,在数学、STEM、竞赛型代码的测评中,V4-Pro超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的成绩。
不过,DeepSeek也坦言,在推理能力上,V4-Pro-Max与最先进的前沿模型仍存在3至6个月的差距。
图源:DeepSeek-V4技术报告
时代财经注意到,DeepSeek-V4在海内外全网更新后,迅速在海外开发者社区和技术圈引起热议。
不少网友对于DeepSeek此次更新给出积极反馈,有评价称其几乎是“这个领域里相当彻底的开源”,开发者文档完善、价格“低得惊人”,同时却具备接近前沿模型的能力;也有用户直言,模型质量与价格相比是一笔“疯狂划算的交易”。
实际上,DeepSeek V4的登场比市场预期晚了许多。
早在今年初,就有消息传出DeepSeek-V4将在春节前后发布,一时间业内讨论度升温。但之后,市场几番猜测又频频落空。直至4月24日正式亮相,较上一轮模型更新(DeepSeek-V3.2)已间隔近5个月。
值得注意的是,对于此前外界猜测的延迟发布与底层代码重写、适配国产芯片有关的传闻,本次DeepSeek-V4技术报告给出了侧面印证。
时代财经注意到,深度求索罕见地将华为昇腾和英伟达写进DeepSeek-V4技术报告:“我们在英伟达GPU和华为昇腾NPU平台上验证了细粒度EP(专家并行)方案。”
华为官方也发布信息称,DeepSeek-V4在昇腾首发,昇腾超节点全系列产品支持DeepSeek V4系列模型。
这一算力适配的选择,或将引来全球科技行业的震动。长期以来,全球AI算力的技术体系与产业生态,基本围绕英伟达的技术路线构建,其CUDA生态不仅为模型开发提供了成熟的工具支撑,更已成为行业内通用的AI计算标准接口。
如今,DeepSeek-V4选择在华为昇腾平台首发,无疑打破了这一长期固化的算力生态格局。近日,英伟达创始人黄仁勋在一场访谈中就提到:“DeepSeek绝非一个⽆关紧要的进步,如果DeepSeek率先在华为上发布,那对美国来说将是一个可怕的结果。”
与此同时,这一生态成本未来或能够进一步降低。DeepSeek表示,受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。
目前,按DeepSeek官方价格折算,V4-Pro每百万tokens输入是1元,输出是12元;V4-Flash每百万tokens的输入和输出分别是0.2元和2元。
图源:DeepSeek-V4技术报告
融资传闻升温,DeepSeek走到十字路口
在DeepSeek-V4“姗姗来迟”的这段空窗期里,大模型行业的竞争格局已悄然剧变,火药味渐浓——这与当年DeepSeek R1横空出世时的环境已然不同。
今年2月,字节跳动、腾讯、阿里等多家科技巨头纷纷加大AI应用投入,它们旗下的豆包、元宝和千问等产品的月活跃用户(MAU)迎来爆发式增长,在AI原生App榜单中强势崛起,一度撼动DeepSeek占据的“江湖地位”。几乎在同一时间,Kimi K2.5、GLM-5、MiniMax M2.5等国产大模型也密集登场。
随着4月上旬DeepSeek创始人梁文锋在内部沟通中透露,新一代旗舰大模型将于当月下旬发布的消息传开,一场围绕大模型的卡位战加速打响。
戏剧性的是,就在DeepSeek-V4上线的前一天,互联网巨头上演了一场集体“伏击”,4月23日,小米MiMo-V2.5和腾讯混元Hy3 preview同日开启公测,而阿里则在更早前的4月2日便发布了Qwen3.6-Plus。
外部强敌环伺之下,DeepSeek的内部组织稳定性与服务保障能力正在经受考验。
一方面,核心技术人才的接连出走,引发市场对这家基座大模型公司研发能力的担忧。公开信息显示,自2025年下半年以来,DeepSeek的研发团队出现明显人员流动,DeepSeek第一代大语言模型核心作者王炳宣转投腾讯、V3版本核心贡献者罗福莉入职小米。
甚至在4月中旬V4版本呼之唤出之时,据晚点报道,当年R1核心研究员郭达雅选择加入字节跳动Seed团队。
另一方面,随着用户规模的扩张,DeepSeek服务稳定性问题也日益凸显。2026年开年以来,DeepSeek多次出现大规模服务中断,其中3月29日晚至次日上午的宕机波及网页端与APP端,持续时间长达约12小时。
进入4月,关于DeepSeek启动首次外部融资的消息持续发酵。
就在DeepSeek-V4上线前一周,证券时报等多家媒体报道称,DeepSeek正与投资者洽谈首轮外部股权融资,计划以不低于100亿美元的估值,募集不少于3亿美元资金。随后又有报道称,腾讯、阿里正洽谈以超过200亿美元估值投资DeepSeek,两家投资方预计共计投资18亿美元。不过上述消息均未得到DeepSeek及相关方的确认。
这场融资传闻之所以引发如此大的反响,核心在于它与DeepSeek此前留给外界的“技术纯粹派”印象形成强烈反差。
梁文锋曾在公开表态中表现出对融资的明确排斥。其在采访中曾表示,幻方作为出资人之一为其充足研发预算;更核心的顾虑在于外部投资者或干预公司决策,梁文锋称很多VC对做研究有顾虑,存在退出需求,希望尽快做出产品商业化,而这与DeepSeek优先做研究的思路并不完全匹配。
彼时,独立于融资叙事之外、专注于技术研究,正是DeepSeek最吸引人的故事之一。一定程度上,当年R1横空出世,正是凭借这份纯粹的技术追求,在众多模型中脱颖而出,成为AI行业的“黑马”。
但如今,大模型竞争已告别单点突破的时代,进入算力、人才、生态、产品和商业化的综合战。仅依靠技术声望和内部资金,或许已难以覆盖下一阶段的综合竞争成本。
而引入外部资本,不仅能补充弹药,还意味着企业的估值将得到市场定价,员工手中的股权激励也将有更清晰的价值参照。这对于过去一年频频被卷入人才流动讨论的DeepSeek来说,或许也是稳定团队、留住核心研发人员的一种更为现实的方式。
实际上,在DeepSeek尚未迈出融资这一步时,昔日同为大模型独角兽的竞争对手们,早已在资本市场上加速奔跑。
今年1月,智谱(02513.HK)与MiniMax(00100.HK)先后登陆港交所,截至4月24日,两者最新市值分别达到4169亿港元和2439亿港元。
月之暗面虽尚未启动上市,但据财联社3月份报道,其今年以来已完成三轮融资,估值在3个月内翻了4倍,最新一轮融资估值上升至180亿美元。
对于站在十字路口的DeepSeek而言,一边是愈发残酷的算力与人才军备竞赛,另一边是向其抛出橄榄枝的资本市场。一边是坚守技术理想的初心,一边是应对商业竞争的现实压力。
这家曾给中国AI行业带来巨大惊喜的公司,能否在技术理想与现实之间找到可持续的平衡,将决定它下一阶段的生存与发展走向。
财经号声明: 本文由入驻中金在线财经号平台的作者撰写,观点仅代表作者本人,不代表中金在线立场。仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。同时提醒网友提高风险意识,请勿私下汇款给自媒体作者,避免造成金钱损失,风险自负。如有文章和图片作品版权及其他问题,请联系本站。
