世界模型山雨欲来,Sora 还在牌桌上。
作者丨梁丙鉴
编辑丨马晓宁
继 3 月 24 日 Sora 业务线关停后,OpenAI 华人研究员王若宸发了一条朋友圈,公开了此举的最新内幕:Sora 团队的终极目标一直是通用机器人,此番调整的核心原因是视频生成和具身模型的研究路线越发分化,难以兼顾。业务线关停之外,对 Sora 研究团队的组织架构无任何影响。

王若宸为 Sora 团队华人研究员。公开信息显示,2024 年其博士毕业于美国加州大学洛杉矶分校,取得计算机科学专业博士学位,研究方向为自动化机器学习方法。2025 年 2 月,王若宸加入 OpenAI 担任研究员,从事多模态方向研究。
在 LinkedIn 平台上,他对这段工作经历的介绍是,“I trained the latest ChatGPT Voice- What's next?:)”
此前 OpenAI 已有表态,Sora 团队接下来的任务是机器人方向研究。OpenAI 发言人 Kayla Wood 在接受媒体采访时表示,Sora 团队“将继续专注于世界模拟研究,以促成机器人的进化,使其帮助人们解决现实世界中的物理任务。”
王若宸侧面印证了这一口径。在落地成为具身智能核心命题的当下,此举无疑意味着 OpenAI 在这一方向进一步完成了研究力量的收缩整合,竞争烈度即将进入全新阶段。而在 OpenAI 此次调整后重新审视 Sora 团队的战略地位,外界此前是否存在低估,值得重新考量。

01
王若宸的朋友圈,透露四点细节第一,Sora 团队的定位一直是通用机器人研究,这是 Bill(William Peebles)和 Aditya(Aditya Ramesh)的共识。二人同为 Sora 团队三大负责人之一,前者是 Sora 核心创新的 DiT 模型作者,后者为 OpenAI 元老级成员,主导了三代 DALL-E(DALL-E 1/2/3)的研究。
第二,由于机器人的商业化周期更长,Sora 团队将视频生成作为类似中间产物的商业化成果,此前的产品探索也聚焦于这一方向。
第三,自 2025 年底开始,Sora 团队发现作为终极愿景的机器人,和视频生成这两条研究路线分化的部分增加。出于保持短小精悍的团队氛围的目的,Sora 团队一直在讨论如何重新定义优先级。
王若宸称,包括自己在内的大部分研究员都“倾向梭哈机器人,因为做让人成瘾的视频实在不符合我们的价值观。”
第四,Sora 负责人 Aditya Ramesh 去年整合了 OpenAI 内部其余进行机器人产品探索的团队,纳入 Sora 团队内部,新团队更名为 WorldSim。
此次调整仅涉及到视频生成产品的关停,对研究团队不会造成任何变化,也不存在成员并入 WorldSim 团队的情况,“本来就是一个 org。”
王若宸表示,Sora 业务线的突然关停并非团队本意,但非常赞同 OpenAI 最近整体的战略聚焦。
02
世界模型山雨欲来此前 Sora 团队突然发布告别声明,Sam Altman 内部信随后流出,信中通知 Sora 视频平台将全面停运,此时距离 Sora 2 发布仅仅过去半年。加之 Sora 初次发布时曾因超群的物理效果和场景还原能力一鸣惊人,Sam Altman 亲自在 X 上为之站台,展示效果,导致 Sora 长期被视为 OpenAI 在视频生成赛道比肩 ChatGPT 的战略产品。
高开低走的命运,引发外界众多猜测。有报道称 OpenAI 此举是冲击 IPO 前的战略调整。
OpenAI CEO Fidji Simo 近期曾对员工解释,关停 Sora 是 OpenAI 从"分散的副业"转向核心生产力工具的战略决策。而 OpenAI CFO Sarah Friar 则在 24 日接受媒体采访时称,OpenAI 需要“准备好成为一家上市公司”,或暗示 Sora 的关停与 IPO 计划有关。这进一步引发了关于视频生成模型算力成本承压及商业模式的讨论。
但根据王若宸透露的最新消息,为世界模型研发整合资源的因素,在此次业务线调整中的影响同样举足轻重。
为什么世界模型如此重要?
具身智能的落地应用,面临着真实世界交互数据匮乏,以及由对物理世界缺乏深层次理解和预判能力,导致的跨场景泛化问题。而世界模型在合成数据和闭环仿真方面的应用将有效缓解数据压力,统一的物理规律理解能力则能让机器人在陌生环境中真正拥有物理直觉,正是为解决上述问题而生。
Sora 在发布之初就曾因具备初步的物理世界常识和时间逻辑被誉为视频生成的 “GPT时刻”,在一众视频生成模型中,也以物理真实性见长。在技术特征上,这正是与世界模型的契合之处。如果 Sora 真的从 Day 1 就并非视频生成团队,而是为世界模型进行技术积累,那么最新成果相当值得期待。
值得一提的是,相较于海外厂商以 Sora 为代表的“世界模拟器”路线,国内的视频模型厂商,如快手、字节、生数科技等,定位则更接近于内容引擎。
如可灵的 MotionControl 功能可精准控制物体移动轨迹,字节 Seedance 主打多镜头叙事与音画同步,生数科技的Vidu 3 主打电影级叙事,采用 U-Vit 架构在单卡级推理上保障画面连贯性。三者的共同点在于以生成结果的可控性见长,而非对物理规律的完美复现。
技术路线的选择见仁见智。在大厂占据内容平台高地的背景下,内容引擎可以更契合地融入自家生态,两者共同完成从内容生成到分发的闭环,同时生成结果更高的可控性进一步优化了 AI 短剧、漫剧的成本结构,商业化由此反哺模型迭代。国内模型厂商在视频生成赛道,构建了难以撼动的生态壁垒。
但是在世界模型的竞争中,这一优势不复成立。
内容引擎的生态壁垒,对具身智能而言是否会成为技术债务?新一轮的竞争中,又会是哪家模型厂商担纲?值得拭目以待。
可以确定的是,具身智能赛道火热的市场预期,最终要在落地场景中兑现,此前频现的巨额融资已经累积了巨大的商业化压力。而 Sora 在视频生成赛道激流勇退的另一面,是为具身智能的又一次添柴加炭。
//
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106056