实现AGI，我们必须补上世界模型这一课！

财经号APP

万点研究 2026-05-08 14:35:47

198

分享到：

文/劲草

来源/万点研究

近日，图灵奖得主、深度学习“三巨头”之一、曾长期担任Meta AI首席科学家的杨立昆（Yann LeCun）博士，在Welch Labs访谈中再次直言：当前大语言模型和生成式AI，难以通往真正的AGI（通用人工智能）。

杨博士不是首次这样陈述自己的观点，早在2022年提出JEPA等世界模型相关思路时，他就强调AI需要构建对物理世界的内部模拟规划和因果理解、而非单纯依赖语言预测。后续在多个访谈、演讲和社交媒体中，针对大模型的批评变得更加鲜明和公开。所以，LeCun的观点不是在GPT彻底火爆后的“临时转向”，而是建立在他长期对AI智能、世界模型和AGI实现路径的深入研究基础上的。

在笔者看来，这并非否定大模型的巨大价值，而是对技术路径的清醒校准。大模型在语言理解、代码生成、内容创作等领域已展现超凡生产力，极大降低了个人与企业的门槛。但其本质是“下一个token预测”的统计机器，擅长模式匹配，却缺乏对物理世界因果关系、时空连续性和长期规划的深刻建模。这正是为什么它们在聊天和写作上得心应手，却难以直接驱动需要真实交互的具身智能系统——机器人自主行动、高阶自动驾驶或复杂工业场景。LeCun的判断，体现了顶级科学家的战略视野：我们不能被短期繁荣蒙蔽双眼，必须为下一范式布局。

如上所言，杨立昆的解决方案指向明确：转向世界模型（World Model）。这不是简单升级，而是AI从“会说话”向“懂世界、会行动”的根本跃迁。世界模型的可预测、可模拟、可规划的“内心模拟器”特征，能够让AI像人类一样通过观察、预测多步后果并决策，而这种能力正是通往AGI的关键桥梁。

世界模型帮助AI认知“物理世界”

世界模型擅长理解物理规律、时空动态和因果关系，强调预测未来状态。比如“假使我这样做，世界会怎样变化”，在脑中模拟多种行动序列，选择最佳路径，实现目标。更重要的是世界模型的反事实推理能力，比如“如果当时不这么做，会发生什么”。

而人类智能的根基也正是这种“世界模型”。婴儿通过感官互动逐步构建对重力、物体持久性和社会规则的理解，进而发展高级认知。

从这一点推敲，AI若要实现通用智能，这一课必须补上。

很长一段时间内，AI发展注重处理符号，比如文字、数字、图像、语音等，而世界模型更加关注“具身 grounding”的回归，这也提示当前LLM的局限性已日益显现——它们在封闭环境中表现亮眼，但在开放物理世界中易出现“幻觉”或不可预测行为。

而世界模型通过视频、传感器等多模态数据训练，能习得更稳健的物理一致性，这对机器人、自动驾驶等落地场景至关重要，高阶自动驾驶实现真正零事故、机器人全面进入工厂与家庭、医疗AI从辅助诊断走向自主干预。

想象一下：工厂内智能机器人自主规划复杂装配，城市中Robotaxi无缝应对突发路况，家庭机器人理解人类意图并安全协作，这些场景不再是科幻，而是世界模型成熟后的必然结果。

简单总结：LLMs像一个博学的“聊天高手”，但出门就迷路；世界模型像一个有“内心地图”和“预演能力”的探险家，能真正行动并生存。

我们有理由相信，世界模型推动AI发展范式转变而带来的商业前景，将极为广阔。正如马斯克关于“AI与机器人满足人类一切欲望”的预言，因世界模型而变得可及。

而资本市场与产业界的行动投票也证明这一点：李飞飞World Labs和杨立昆AMI Labs均获超10亿美元融资，NVIDIA、Tesla深度布局，国内车企加速跟进，资本市场已将世界模型视为后LLM时代主赛道。

和而不同：生成派VS表征派

落地到实践层面看，当前世界模型领域呈现鲜明的技术流派竞争，以李飞飞和杨立昆为代表的两大路线尤为瞩目。

AI教母李飞飞博士创立的World Labs走生成路线，首个商用产品Marble能从一句话、一张图或视频生成高保真、可漫游、可编辑的3D世界。这些世界具备真实几何结构、物理属性，支持交互编辑和大规模构建。而Marble强调的空间智能与物理一致性，特别适合内容创作、虚拟生产、游戏开发和可视化模拟。腾讯混元、阿里等国内项目也聚焦类似方向，在前端可视化和资产生成上展现潜力。

商业化落地快的特征，使得生成路线在娱乐和设计领域更快看到明确的变现路径，这说明生成路线直击“创造世界”的痛点，极大降低了3D内容门槛，但长程规划有时仍需后处理优化的弊端也十分明显。

另一方面，杨立昆创立的AMI Labs则强调表征路线。不同于Marble的空间生成，基于JEPA架构理念的技术路线不追求像素生成，更强调在潜在空间学习抽象表示，如同人类的心智模型，擅长直觉预测，如同人看到玻璃杯即将倾倒，会预测水撒出甚至摔地破碎，应该及时决策扶住并阻止等。

很明显，表征路线更接近人类“脑中模拟”的本质，尤其适合机器人规划、智能驾驶等场景。

汽车成为世界模型产业实践的热土

事实上，汽车行业是世界模型落地最快的领域。

如Tesla Neural World Simulator利用海量数据实现高效闭环，国内蔚来NWM世界模型早在2024年推出，能全量理解信息、生成新场景、预测轨迹，在主动安全、领航、泊车等场景升级，支持人机共驾。

在刚刚闭幕的2026北京车展上，物理AI、世界模型成为全场关键词，也是更加贴切的产业印证。

展会上，小鹏以“物理AI科技公司”身份亮相，展出IRON人形机器人和Robotaxi原型车，宣布投入70亿元研发物理AI；吉利发布原生Robotaxi Eva Cab，搭载WAM世界动作模型，支持L4级无人运营；轻舟智航推出基于“世界模型+强化学习”的乘风MAX方案，算力超500TOPS，实现城市NOA；华为ADS 5.0引入多智能体+云端世界模型；Momenta R7强化学习世界模型等也在多款车型落地。人形机器人布局火热，小鹏、理想、小米、奇瑞等均有实质进展......

从新势力到传统车企，从整车到供应链，几乎人人都在谈如何让AI进入物理世界，而世界模型作为物理AI的“大脑”核心，重要性不言而喻。单纯依赖LLM已不足以应对物理世界的复杂性，世界模型+强化学习成为从感知到决策闭环的关键。

这一共识的形成远早于众人预期，反映出车企在智能化下半场的战略敏锐度。供应链话语权提升，宁德时代、地平线等与整车同台，也预示产业生态重构。车展上的密集落地，也为全球提供了中国样本——数据优势、工程能力与资本结合，正加速技术从实验室走向量产，同时也说明世界模型是克服LLM局限的必由之路。

产业界的观点是，2026或将是世界模型大爆发的元年，世界模型的成熟周期将快于预期。

尽管世界模型的发展面临物理一致性、长程规划、数据安全等挑战，但合成数据技术、强化学习闭环和多方协同正快速破局。值得一提的是，NVIDIA Cosmos平台在基础设施层面发挥关键作用，其Predict、Transfer、Reason等模型家族生成定制合成数据，大幅降低真实数据采集成本，支持物理一致性训练，已成为机器人和自动驾驶的训练底座。NVIDIA的平台策略着实聪明，将基础设施开放与生态绑定，加速全行业进步。

世界模型不再是营销口号，而是定义下一代竞争力的核心，而真正的智能始于世界而非语言这一理念正被越来越多的实践验证。

分享收藏举报

标签1：语言场景落地数据模型

财经号声明：本文由入驻中金在线财经号平台的作者撰写，观点仅代表作者本人，不代表中金在线立场。仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。同时提醒网友提高风险意识，请勿私下汇款给自媒体作者，避免造成金钱损失，风险自负。如有文章和图片作品版权及其他问题，请联系本站。

0条评论网友评论文明上网，理性发言

查看更多评论

实现AGI，我们必须补上世界模型这一课！

0条评论网友评论文明上网，理性发言

举报此人

万点研究

推荐财经号换一批

热门视频换一批

友情链接

温馨提示

鲜花打赏 X

温馨提示

实现AGI，我们必须补上世界模型这一课！

0条评论 网友评论文明上网，理性发言

举报此人

万点研究

推荐财经号 换一批

热门视频换一批

友情链接

温馨提示

鲜花打赏 X

温馨提示

0条评论网友评论文明上网，理性发言

推荐财经号换一批