> 自媒体 > (AI)人工智能 > 像GPT-4一样能看懂图文,具身AI给机器人造了个多模态对话框
像GPT-4一样能看懂图文,具身AI给机器人造了个多模态对话框
来源:机器之心Pro
2023-07-30 15:14:17
703
管理

机器之心报道

编辑:张倩、陈萍

VIMA 是一个带有机械臂的 LLM ,它接受多模态 Prompt :文本、图像、视频或它们的混合。

是时候给大模型造个身体了,这是多家顶级研究机构在今年的 ICML 大会上向社区传递的一个重要信号。

在这次大会上,谷歌打造的 PaLM-E 和斯坦福大学李飞飞教授、英伟达高级研究科学家 Linxi "Jim" Fan(范麟熙,师从李飞飞)参与打造的 VIMA 机器人智能体悉数亮相,展示了具身智能领域的顶尖研究成果。

论文地址:https://arxiv.org/pdf/2210.03094.pdf论文主页:https://vimalabs.github.io/Github 地址:https://github.com/vimalabs/VIMA

VIMA 智能体能像 GPT-4 一样接受 Prompt 输入,而且输入可以是多模态的(文本、图像、视频或它们的混合),然后输出动作,完成指定任务。

比如,我们可以要求它把积木按照图片所示摆好再还原:

该研究引入了 VIMA(VisuoMotor Attention agent)来从多模态 prompt 中学习机器人操作。模型架构遵循编码器 - 解码器 transformer 设计,这种设计在 NLP 中被证明是有效的并且是可扩展的。

为了证明 VIMA 具有可扩展性,该研究训练了 7 个模型,参数范围从 2M 到 200M 不等。结果表明本文方法优于其他设计方案,比如图像 patch token、图像感知器和仅解码器条件化(decoder-only conditioning)。在四个零样本泛化级别和所有模型容量上,VIMA 都获得了一致的性能提升,有些情况下提升幅度很大,例如在相同的训练数据量下,VIMA 任务成功率提高到最多 2.9 倍,在数据量减少 10 倍的情况下,VIMA 性能提高到 2.7 倍。

为了确保可复现性并促进社区未来的研究工作,该研究还开源了仿真环境、训练数据集、算法代码和预训练模型的 checkpoint。

方法介绍

本文旨在构建一个机器人智能体,该智能体可以执行多模态 prompt 任务。本文提出的 VIMA 兼具多任务编码器 - 解码器架构以及以对象为中心的设计。VIMA 的架构图如下:

其中 d 是嵌入维度。为了将高层与输入的轨迹历史序列相连接,该研究还添加了残差连接。

研究中还用到了交叉注意力层,其具有三个优势:1)加强与 prompt 的连接;2)保持原始 prompt token 的完整和深入流动;3)更好的计算效率。VIMA 解码器由 L 个交替的交叉注意力层和自注意力层组成。最后,该研究遵循 Baker 等人的做法,将预测的动作 token 映射到机械臂离散姿态。

最后是训练。该研究采用行为克隆(behavioral cloning)训练模型。具体而言,对于一个包含 T 个步骤的轨迹,研究者需要优化函数

整个训练过程在一个离线数据集上进行,期间没有访问仿真器。为了使 VIMA 更具鲁棒性,该研究采用了对象增强技术,即随机注入 false-positive 检测输出。训练完成后,该研究选择模型 checkpoint 进行评估。

实验

实验旨在回答以下三个问题:

基于多模态 prompt,构建多任务的、基于 transformer 的机器人智能体的最佳方案是什么?本文方法在模型容量和数据大小方面的缩放特性是什么?不同的组件,如视觉 tokenizers、prompt 条件和 prompt 编码,如何影响机器人的性能?

下图(上部)比较了不同模型大小(参数范围从 2M 到 200M)的性能,结果表明,VIMA 在性能上明显优于其他方法。尽管像 VIMA-Gato 和 VIMA-Flamingo 这样的模型在较大的模型大小下表现有所提升,但 VIMA 在所有模型大小上始终表现出优异的性能。

下图(底部)固定模型大小为 92M,比较了不同数据集大小(0.1%、1%、10% 和完整数据)带来的影响。结果表明,VIMA 具有极高的样本效率,可以在数据为原来 1/10 的情况下实现与其他方法相当的性能。

下图表明,交叉注意力在低参数状态和较难的泛化任务中特别有用。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
4S店服务争议分析:五类高发投诉问题与成功率解析
在汽车消费市场中,4S店作为品牌与消费者直接交互的渠道,其服务规范性直..
新车买来6天,4S店销售员一个没注意撞了!车主协商未果把车卖了,贬值3.5万..
沈阳的李先生反映,他在4S店刚买新车,才6天,41公里,到4S店请教新功能..
揭秘4S店暗藏套路,买车不踩雷
买车时4S店为何不让你当天提车?前员工揭秘其中暗藏的套路。买车时4S店为..
探寻汽车4S店哪家强,口碑好售后维修出色的品牌盘点..
在汽车消费市场中,挑选一家靠谱的汽车4S店至关重要,它不仅关乎购车的价..
4S店保养避坑终极指南:技师私藏的真相,这些项目白送钱都别做..
“本来只想做500块的小保养,最后花了2800!”刚从4S店出来的张先生拿着..
吃过亏才懂,4S店和修理厂保养的真相,别再瞎省钱
前些年买车总听人说,外面修理厂保养便宜,能省不少钱,抱着贪便宜的心思..
(新春走基层)2026年春运首夜:“动车4S店”里的隐形守护..
中新网南宁2月3日电 题:2026年春运首夜:“动车4S店”里的隐形守护作者 ..
混动4.0T V8双涡轮增压 丰田GR GT跑车发布
【太平洋汽车 新车频道】12月5日,丰田正式发布了全新GR GT跑车原型车。..
问界M7、理想L8深度横评:中大型新能源SUV王牌对决
随着中大型新能源SUV市场竞争持续升温,各车型之间的较量日趋激烈。全新..
关于作者
有点醉(普通会员)
文章
1886
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体104047

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索