> 自媒体 > 科技科学 > 波士顿与丰田发布AI新进展,Atlas机器人向通用任务迈出关键一步
波士顿与丰田发布AI新进展,Atlas机器人向通用任务迈出关键一步
来源:DeepTech深科技
2025-09-09 04:53:30
62
管理

近日,美国机器人制造商波士顿动力(Boston Dynamics)与日本丰田汽车旗下的高级研究机构丰田研究所(Toyota Research Institute, TRI)近日联合宣布了一项在机器人与人工智能研究领域的重大进展。通过双方的深度合作,为波士顿动力旗下著名的 Atlas 人形机器人注入了由大型行为模型(Large Behavior Models, LBMs)驱动的全新人工智能系统。这一突破使得 Atlas 不再仅仅依赖于复杂的预编程代码来执行任务,而是能够通过观察人类的演示来直接学习和掌握新技能,从而向着能够处理多样化任务的通用人形机器人迈出了关键性的一步。

图丨植入大型行为模型的 Atlas 机器人(来源:BostonDynamics)

我们知道,传统机器人编程方式面临着巨大的瓶颈。工程师必须为机器人可能遇到的每一种情况手动编写精确的指令和应急预案,这个过程不仅极其耗时耗力,而且生成的行为往往非常“脆弱”,一旦现实环境与预设有些许偏差,机器人便可能无法完成任务。丰田研究所大型行为模型高级副总裁 Russ Tedrake 指出:“人形机器人的主要价值主张之一,是它们能够在现有的人类环境中直接完成各种各样的任务,但以往的编程方法根本无法扩展以应对这一挑战。”新推出的大型行为模型正是为了解决这一根本性难题。该模型通过一种全新的方式为机器人赋能:通过人类的演示来快速添加新技能,并且随着模型能力的增强,实现更鲁棒的行为所需要的人类演示也越来越少。

这项合作的核心是一种端到端(end-to-end)的 AI 策略。研究团队将机器人的感知、决策与控制整合进一个统一的神经网络中,彻底改变了过去将行走、平衡、操纵等功能分割开来独立控制的模式。这个统一的“大脑”可以直接控制 Atlas 的全身,包括其手和脚,使其能够协调并执行涉及全身运动的复杂任务,例如行走、蹲下、举起和搬运物体。

在官方发布的一段演示视频中,Atlas 面对一个装有四足机器人 Spot 零件的推车,自主地执行了一系列复杂的、环环相扣的操作。首先,它稳健地走到推车旁,用灵巧的双手抓取 Spot 的机械腿,将其折叠好,然后转身精确地放置在旁边的货架上。接着,它从推车上拿起其他部件(如面板),拉开货架底层的储物箱,并将部件放入其中。在清空推车后,任务并未结束,Atlas 转身处理身后一个装满杂乱零件的蓝色大桶,它抓取数捧零件,并将它们转移到另一辆大型蓝色推车中。整个过程包含了移动、抓取、折叠、放置、拉抽屉等多种动作,一气呵成,充分展示了模型执行长序列任务的能力。

更重要的是,该模型赋予了 Atlas 前所未有的适应性。在演示过程中,研究人员故意制造了干扰,例如当 Atlas 正在整理物品时,突然将一个箱子的盖子合上,或者将一个零件弄掉在地上。在过去,这些意外情况很可能会导致机器人程序中断或失败。但新的 Atlas 能够智能地应对这些变化:它会先尝试打开被合上的箱盖;如果零件掉落,它会俯身将其捡起。这种“纠错”能力并不出自预先编写的应急代码,而是得益于模型在训练过程中通过学习包含类似干扰和恢复动作的演示数据,使得机器人不再只是僵硬地执行指令,而是开始具备了在动态和不可预测的环境中解决问题的初步能力。

这一能力的实现,得益于研究团队为 LBM 制定的一系列数据收集和模型训练流程。研究人员首先通过一个高度沉浸式的虚拟现实(Virtual Reality,VR)遥操作系统来收集高质量的训练数据。操作员穿戴 VR 设备,以第一视角实时看到机器人“眼中”的景象,并通过控制器直观地操控 Atlas 完成指定任务。在此过程中,系统会记录下所有相关数据,包括机器人摄像头的 RGB 图像、描述机器人自身姿态和关节位置的本体感觉(proprioception)数据,以及操作员下达的高级语言指令。

这些多模态的数据被送入一个拥有 4.5 亿参数、基于扩散模型(Diffusion Transformer)的神经网络架构中进行训练。模型通过学习这些人类演示,逐渐掌握了如何将语言指令与一系列连贯的物理动作联系起来,从而能够自主完成任务。

图丨LBM 的策略系统(来源:BostonDynamics)

更重要的是,研究团队采取了构建“通用性策略”(generalist policies)的思路。他们没有为每一项具体任务单独训练一个专门的模型,而是将来自不同任务和不同机器人平台(包括完整的 Atlas 机器人、仅有上半身的 Atlas 操控测试台,以及来自 TRI 的其他数据)的数据整合在一起,训练一个单一的、能够处理多种任务的通用模型。

这种方法显著提升了机器人的泛化能力和鲁棒性,使其在面对新情况时能表现得更好。这也意味着,策略的改进可以更方便地在不同任务和机器人形态间共享,从而加速整体研发进程。比如说,通过这种方式训练后,Atlas 能够处理各种不同性质的物体,无论是坚硬的工具、柔软的布料,还是沉重的汽车轮胎,都无需为每一种物体重新编写程序。

这种数据驱动的学习范式还带来了一个意想不到的好处:执行效率的提升。研究团队发现,经过训练的模型在部署时,其动作执行速度可以被提升至原始人类演示速度的 1.5 到 2 倍,且无需重新训练。在某些情况下,机器人的运行效率甚至可以超越人类远程操作员的极限。

而这一突破离不开波士顿动力与丰田研究所在基础设施上的大量投入。他们结合了物理硬件测试和高保真模拟环境,创建了一个快速迭代的闭环系统。新的 AI 策略可以在模拟环境中进行大规模的测试和验证,这不仅加快了开发速度,也有效避免了在昂贵的物理样机上进行高风险测试可能导致的损坏。

当然,现在就断言通用人形机器人就要到来还为时过早,从技术突破到大规模商业化应用还有许多问题有待解决,例如,对于 LBM 来说,如何高效、低成本地获取海量数据仍是当前绕不开的一大难题。

参考资料:

1.https://bostondynamics.com/blog/large-behavior-models-atlas-find-new-footing/

运营/排版:何晨龙

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
NeurIPS 2025放榜:阿里Qwen门控注意力获最佳论文
嘻疯 发自 凹非寺量子位 | 公众号 QbitAI刚刚,NeurIPS 2025最佳论文奖、..
阿里千问开源4款Qwen3.5小尺寸模型,满足资源受限至轻量应用不同需求..
【太平洋科技快讯】3月3日消息,阿里千问近日开源四款Qwen3.5更小尺寸模..
实测Qwen3.6-27B:4分钟做了个跑酷游戏,验证码识别正确率超90%..
它用时四分钟左右,写完了1200多行代码。从实测结果来看,游戏设计与前端..
阿里亲身入局具身智能!Qwen内部组团,通义千问技术负责人带队..
衡宇 发自 凹非寺量子位 | 公众号 QbitAIQwen团队内部组建了一个全新的具..
Qwen紧追OpenAI开源4B端侧大模型,AIME25得分超越Claude 4 Opus..
衡宇 发自 凹非寺量子位 | 公众号 QbitAI三天不开源,Qwen团队手就痒。昨..
Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒
全球最快的开源大模型来了——速度达到了每秒2000个tokens!虽然只有320..
激活170亿参数 Qwen3.5实测 重构大模型性价比逻辑
2月16日Qwen3.5正式开源,以3970亿总参数、仅170亿激活参数的架构实现性..
Qwen最新闭源模型曝光!实测夸克“对话助手”
10月23日,阿里旗下夸克正式上线“对话助手”。从界面上看,它像是“塞进..
林俊旸离职后,Qwen的变与不变
来源:视觉中国OpenAI早期也曾采用垂直整合的架构模式,并集中资源完成了..
关于作者
快乐的老范..(普通会员)
文章
1930
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106516

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索