henry 发自 凹非寺
量子位 | 公众号 QbitAI
今天凌晨,Physical Intelligence发布了全新的VLA模型π0.7,狠狠敲了世界模型一记闷棍。
π0.7第一次在机器人领域证明了Compositional Generalization(组合泛化),且VLA。
在遇到新任务时,模型可以组合以前学过的原子技能,自己拼出解法。

就像乔丹会跳投、会后仰,遇到新防守时自己琢磨出后仰跳投。
没人专门教他这一招,他自己组出来了。
Demo里最炸的两个:
任务泛化:机器人没见过空气炸锅,也能根据指令,组合机械臂动作把红薯烤出来。
本体泛化:把从一个机械臂学来的抓取策略,直接部署在另一台机械臂上。
更离谱的是,Physical Intelligence的研究员自己也说不清π0.7到底会什么。
他们还在探索边界,玩起来很有趣,到目前为止效果相当令人惊喜。
切黄瓜、削皮、倒垃圾、烤红薯……都能干
用Physical Intelligence的研究员Ashwin Balakrishna说:
我过去总能根据训练数据猜出模型能做什么。这一次,我猜不到了。
π0.7:具有涌现能力的可控模型π0.7最核心的洞见只有一句话,多样化的数据需要多样化的prompt。 但它带来的结果,远比这句话本身要深远得多。
用多样化的prompt,吃下多样化的数据过去VLA训练只喂一句清理冰箱,模型得到的信号是单一的。π0.7把prompt展开成四层:

而且π0.7自己琢磨出了和source robot完全不同的抓取策略——
人类操作员在源机器人上用倾斜夹爪贴住桌面抓,π0.7在UR5e上用的是垂直抓取,因为这更适合UR5e更长的手臂运动学。
组合任务泛化:
用空气炸锅做红薯、烤贝果、按下按钮、用抹布擦耳机和尺子、拧旋钮和桌面风扇,训练数据里一条都没有。

第二代是π0开的头,给VLM接一个专门的action expert,用flow matching直接生成连续动作chunk。

中间那些模型——π0.5的open-world generalization、π0.6的RL自我练习、MEM的多尺度记忆——
都没改这个基座。都是在VLM action expert flow matching这个结构上往上加能力。
π0.7也是。架构上它和π*0.6没有本质差别,它加的是prompt的多样性。
这就是为什么论文里说”我们的贡献不是架构”。
但,更有意思的是另一个人。
Lucy Shi,斯坦福博士生在读,师从Chelsea Finn,π0.7的核心作者之一。

她在推特上发了一条thread,讲了一个非常诚实的故事。

之前,她跟着朱玉可、Jim Fan在英伟达做世界模型。

她押的注和Karol他们相反——
世界模型会是关键的钥匙,会在任务泛化上显著超过标准VLA方法。
一开始,结果确实支持这个假设。她拿到了惊艳的组合泛化,机器人能遵循没见过的指令,做训练数据里没有的任务,从其他机器人和人类视频迁移。
但有个奇怪的事情发生了。
他们拿来对比的VLA基线,一直在变强。
随着数据越收越多,VLA越来越强,直到有一天,VLA基线也开始展示出组合泛化的信号。
而且,VLA的方法简单得多。
面对这一问题,Lucy感到无可奈何:
当你的基线吃掉了你的研究假设,你能怎么办?你写一篇论文,去搞清楚基线为什么这么强。
那篇论文,就是π0.7。
参考链接
[1]https://www.pi.website/blog/pi07
[2]https://x.com/physical_int/status/2044841263254638862
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105913