
就在刚刚过去的4月底,红杉资本举办的AI Ascent 2026大会上,英伟达机器人方向负责人Jim Fan抛出了一个极具争议的论断:“视觉语言模型VLA已死,世界动作模型WAM当立。”他还预测,未来一到两年内,机器人学习的主要数据来源将从昂贵的人类遥控操作,转变为互联网上随手可得的第一视角人类视频。
这番话一出,立刻在具身智能领域引发轩然大波。

而就在Jim Fan发言前不久,国内具身智能公司银河通用联合英伟达、清华、北大发布的LDA-1B模型,已经明确走出了“抛弃条件反射式模仿,走世界模型路线”的一步。与此同时,生数科技推出的通用世界行动模型Motubrain,在WorldArena与RoboTwin 2.0两项国际权威榜单上双双登顶。
Jim Fan的发言和科技公司的实践让有人高呼“终于找对了方向”,也有人冷笑“英伟达又在为自己造势”。支持者认为,这是机器人从模仿走向理解的必经之路;反对者则指出,VLA在精细控制上的优势依然不可替代。
那么,这场关于机器人大脑的路线之争,到底在争什么?VLA真的已经是具身智能的昨日黄花了吗?这场技术之变,对具身智能初创公司有什么影响?

不仅如此,WAM还在另一个长期困扰机器人领域的难题上取得了进展,那就是长程任务能力。VLA通常只能处理两到三个动作的简单任务,时序稍有拉长就容易迷失。而WAM的表现已经开始脱离Demo阶段。生数科技的Motubrain已经能够完成十个原子动作级别的复杂任务,这意味着机器人在真实场景中具备了更连续、更鲁棒的执行能力。
国内团队在这条赛道上的进展速度,值得关注。银河通用的LDA-1B有清华大学、北京大学和英伟达的联合署名;生数科技的Motubrain登顶两项国际榜单;智在无界的Being-H0.7综合排名全球第一。
与此同时,海外前沿实验室同样在快速推进。英伟达提出的DreamZero在真机实验中展现出对新任务和新环境的强大泛化能力,较顶尖VLA模型提升2倍以上。
在这个新赛道上,国内和国外几乎是站在同一起跑线上。但热闹背后,一个更根本的问题浮出水面:VLA真的该退场了吗?

比人才问题更直接的,是产品价值的存疑。
一个残酷的现实是,当技术路线半年一变,之前基于旧路线开发的产品可能突然就失去了市场价值。比如,那些基于VLA范式、依赖遥操作数据训练出来的机器人技能模型,在WAM的叙事下面临重新估值。如果未来机器人的主食真的是互联网视频,那这些用高昂成本训练出来的“私教”技能,还有多少客户愿意买单?
而所有这些问题,最终都会反馈到资本市场上。投资人的耐心和资本市场的窗口期,未必能跟上技术的节奏。
2026年《中国投资发展报告》中给出了一个判断:人形机器人产业投资正进入“去伪存真”的关键阶段,估值逻辑正从概念炒作转向订单验证与供应链卡位。报告明确指出,中游整机制造商面临“技术路线尚未收敛的风险”,市场给予的估值溢价取决于其模块化设计能力与软硬件协同优化水平。

换句话说,在技术路线还在剧烈变动的阶段,投资人对故事的容忍度正在快速下降。对于创业公司而言,这意味着融资不再只是讲一个足够性感的技术愿景,而是要在技术尚未收敛的环境中,同时证明自己的方向判断力和执行韧性。
回过头看,“VLA已死”未必是事实,但它确实是一记警钟。
在这个行业,选对方向比埋头苦干重要得多。而选对方向的窗口期,正在变得越来越短。对于创业公司来说,这意味着必须在专注和灵活之间找到微妙的平衡;对于投资人来说,这意味着需要更加审慎地评估技术路线的可持续性,避免追逐短期的叙事热点。
机器人产业还处在早期阶段,技术路线远未收敛。今天的主流,明天可能就变成历史。WAM的崛起是真实的,VLA的价值也不会轻易消失。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体110919