重磅!DeepMind “机器猫”自学成才,能操作多个机器人、不依赖人类监督

来源:智东西时间:2023-06-21 17:04:00

智东西(公众号:zhidxcom)


(资料图)

作者 | 云鹏

编辑 | 心缘

智东西 6 月 21 日消息,刚刚,谷歌 DeepMind 推出了一种可以自我改进、自我提升(self-improving)的用于机器人的 AI 智能体,名为 RoboCat。

DeepMind 称它是全球第一个可以解决和适应多种任务的机器人 AI 智能体,并且它可以在各类真实的机器人产品上完成这些任务。

▲ RoboCat 操控机械臂完成各种各样的任务,来源:Google DeepMind

整体来看,RoboCat 最主要的突破在三个方面:

1、DeepMind 让一个神经网络能在多个不同的机器人上工作,可以快速操作新的机械臂,解决新的复杂任务。

2、RoboCat 学习的新任务越多,就越擅长学习和解决额外的新任务。

3、RoboCat 是通用机器人领域的重要研究进展,能够减少对人类监督训练的需求。

▲ RoboCat 解决更多类型的任务,来源:Google DeepMind

AI 智能体可以自己操控机械臂,学习玩套圈、搭积木、抓水果了!效率极高,还不需要多少人力。

只需要通过 100 次左右的演示,RoboCat 就可以学会操控机械臂来完成各式各样的任务,并且它还能通过自生成的数据来进行迭代改进。

最重要的是,不论是它操控的机械臂还是它要完成的任务,RoboCat 之前都从来没见过。

▲ RoboCat 可以解决的各类任务,来源:Google DeepMind

这种" 通用性学习能力 "是 RoboCat 的强项,此外,RoboCat 最主要的特点就是" 学得快 ", 这种能力对于加快机器人领域的研究有重要意义,因为有了这种能力,人类监督训练的需求就会极大减少,这是创造通用机器人非常重要的一环。

在 DeepMind 演示视频中,RoboCat 可以通过自主学习完成 " 套圈 "、" 搭积木 "、" 拿放水果 " 等任务。目前RoboCat 完成一项新任务的成功率已经从初期的 36% 提升至 74%。

▲ RoboCat 前后版本完成任务成功率对比,来源:Google DeepMind

并且根据 DeepMind 论文,RoboCat 完成现实世界训练任务的成功率要远高于传统基于视觉的模型方案,领先幅度还是比较明显的,这也是 DeepMind 研究的重要价值所在。

▲ RoboCat 与基于视觉的模型在完成现实世界训练任务成功率方面的对比,来源:Google DeepMind

值得一提的是,RoboCat 用到的关键技术之一,是一种多模态模型(multimodal model)Gato,而 Gato 在西班牙语里意为 " 猫 ",也就是 "cat",这也是 "RoboCat" 这一命名的由来之一。

此前研究人员已经在机器人大规模学习多种任务方面进行了探索,并将对语言模型的理解与现实世界的机器人能力相结合。而 RoboCat 的进步性在于,它是第一个可以解决和适应多种任务的机器人 AI 智能体。

DeepMind 认为,RoboCat 独立学习技能、快速自我提升的能力,以及对于不同硬件设备的快速适应能力,将对新一代通用机器人 AI 智能体的发展起到重要推动作用。

论文地址:

https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/robocat-a-self-improving-robotic-agent/robocat-a-self-improving-foundation-agent-for-robotic-manipulation.pdf

一、套圈、搭积木样样精通,将水果从碗里拿出来总共分几步?

首先,我们来看看这个 RoboCat 到底能做什么。

从 DeepMind 的演示视频中我们可以看到,研究人员在机器人的摄像头下面将物体摆好,机器人就会将摆好的物体状态设定为 " 目标图像 ",在设定好目标图像后,研究人员会将物体的摆放位置还原,然后让机器人操作还原刚才的物体摆放状态。

▲ RoboCat 完成 " 套圈 " 任务,来源:Google DeepMind

在 " 套圈 " 这个任务中,RoboCat 可以很好的操控机械臂还原橘红色圆圈的位置。

在同一类 " 套圈 " 任务中,RoboCat 还可以解决更复杂的情况,比如区分大圈和小圈并准确套在对应的金属柱上。

▲ RoboCat 完成更复杂的 " 套圈 " 任务,来源:Google DeepMind

DeepMind 还演示了一个任务,就是抓水果。这个任务 RoboCat 已经在此前的训练中看到过,但值得注意的是,此前的训练数据中从来没有过 " 人手 " 出现,这次研究人员给 RoboCat 设定的目标图像中却包含了人手,最终,RoboCat 仍然可以顺利完成任务。

▲ RoboCat 在目标图像有 " 人手 " 干扰的情况下完成抓水果任务,来源:Google DeepMind

这还没完,后续研究人员进一步提高难度,让 RoboCat 操控了一个它之前从未见过的机械臂,这个机械臂跟之前抓水果用的有所不同,但最终 RoboCat 依然可以操控这一新的机械臂来成任务。

▲ RoboCat 操控从未见过的机械臂完成此前学过的任务,来源:Google DeepMind

在另一个 " 搭积木 " 的测试中,研究人员展示了 RoboCat 的另一项技能,当目标图像设定好后,不论初始积木位置是怎样的,RoboCat 都可以很好的还原目标图像中的积木状态。

▲当目标图像设定好后,不论初始积木位置是怎样的,RoboCat 都可以很好的还原目标图像中的积木状态,来源:Google DeepMind

除了搭积木,RoboCat 还可以完成将水果从碗里拿进拿出这样的任务。

二、基于超大数据集,还会自我迭代升级,五步就能掌握新本领

具体来看 RoboCat 背后的硬核技术,DeepMind 提到,RoboCat 用到了一种多模态模型 Gato,Gato 模型可以在模拟环境和物理环境中处理语言、图像和动作,研究人员将 Gato 的架构与一个大型训练数据集进行了结合,这个数据集包含了各种机械臂解决数百个不同任务的图像序列和动作。

在第一轮训练之后,研究人员让 RoboCat 进入一个 " 自我提升(self-improvement)" 的训练周期,在这个训练周期中,RoboCat 会学习解决很多以前从未见过的任务。

每项新任务的学习分为五个步骤:

1、收集 100-1000 个由研究人员控制的机械臂完成的新任务演示。

2、在新任务所使用的机械臂上微调(Fine-tune)RoboCat,创建一个专用的衍生代理。

3、衍生代理在机械臂上练习 10000 次,以生成更多的训练数据。

4、将演示数据和自生成数据合并到 RoboCat 的现有训练数据集中。

5、在新的训练数据集上训练 RoboCat 的新版本。

▲ RoboCat 的训练周期示意图,它能够自生成额外的训练数据,来源:Google DeepMind

上述所有这些训练的结合,意味着 RoboCat 的数据集将包含数百万次的训练轨迹数据,这些数据来自真实机械臂以及模拟机械臂,包括了 RoboCat 自生成的数据。

▲ RoboCat 从各种训练数据类型和任务中学习,来源:Google DeepMind

研究人员总共使用了四种不同类型的机器人和各类机械臂来收集基于视觉的数据。

/div>▲ RoboCat 使用现实和虚拟机械臂积累训练数据,来源:Google DeepMind

三、RoboCat:一个 " 自我提升的通才 "

在上述这种多样化的训练方式下,RoboCat 可以在几个小时内学会操作不同的机械臂,包括一些更加复杂的从未见过的机械臂。

RoboCat 可以操作这些机械臂完成之前见过的任务,比如套圈、拿取水果,甚至是在对应形状的格子中放上对应形状的物品,这些任务会考验 RoboCat 操作的精准度、理解力以及对于形状匹配难题的解决能力。

▲ RoboCat 用新机械臂完成此前学过的任务,来源:Google DeepMind

用 DeepMind 的话来说,RoboCat 是一个 " 自我提升的通才 ",因为它是基于一个良性的训练循环来学习新任务。简单来说,它学习的新任务越多,它就能更好地学习和解决额外的新任务。

最初版本的 RoboCat,在每个新任务进行 500 次演示后,只有 36% 的概率能成功的完成之前从未见过的任务,但是最新版本的 RoboCat 已经将这一成功率提升至 74%。

这些提升归功于 RoboCat 不断增长的经验广度,就像人类在特定领域不断深化学习,从而发展出更加多样化的能力一样。

今天,机器人在我们的生活中已经广泛应用,但大部分机器人只能完成特定的任务,这些机器人基本上都是被提前编程设定好的。

在制造可以完成更多种类任务的 " 通用机器人 " 方面,研究进展一直很缓慢,因为收集现实世界中的训练数据是非常费时费力的。

RoboCat 这种独立学习技能、快速自我提升的能力,以及对于不同硬件设备的快速适应能力,将对新一代通用机器人 AI 智能体的发展起到重要推动作用。

结语:多模态 AI 模型引入,通用机器人研究再进一步

在全球 AI 研究热点涌向大模型的当下,谷歌 DeepMind 似乎对大模型竞赛并不热衷,仍专注于解决 AI 如何与物理世界交互的问题,并将研究重心锁定在优化机器人技术的基础模型上。

而最新发布的 RoboCat,绝对是个了不起的 AI 模型。它通过视觉目标调节解决了不同平台的各种拾取和放置任务,只需 100 次演示就能学会在不同的机器人上执行各种任务,从自生成训练数据提高技能的方法令人眼前一亮。

多模态 AI 模型的引入,为迈向通用机器人的历程贡献了又一个激动人心的进展!

来源:Google DeepMind

关键词:

相关阅读

推荐阅读

银鹏控股公司:业务交流促提升互学互鉴共进步|世

3月2日,银鹏控股公司董事长刘懿婷带队前往中粮集团期货公司进行业务学习和交流。中粮期货公司从业多年、具有丰富实战经验的风险管理专家现场更多

2023-03-07 17:52:41

我国首个万吨级钠离子电池材料项目在山西综改区开

山西晚报讯(记者温丽芳通讯员张晓茹)日前,总投资约11亿元的山西华钠铜能(碳能)科技有限责任公司万吨级钠离子电池正(负)极材料项目在山更多

2023-03-07 11:51:14

建行阳江市分行:践行金融惠民理念-全球关注

2月24日,随着客户办妥抵押登记手续并成功放款,标志着阳江市建行“带押过户”业务取得历史性突破。根据中国人民银行发布《关于鼓励推广二手房更多

2023-03-07 11:53:21

焦点简讯:证监会同意三超新材向特定对象发行股票

中证网讯(记者昝秀丽)证监会网站3月6日消息,证监会发布关于同意南京三超新材料股份有限公司向特定对象发行股票注册的批复。【来源:中国证更多

2023-03-07 09:57:39

美股航空股6日全线走低

中证网讯(记者赵中昊)当地时间周一(3月6日),美股航空股全线走低。据wind数据,截至收盘,波音跌1 49%,美国航空跌1 47%,达美航空跌1%,更多

2023-03-07 09:43:44

世界热资讯!晋钢控股集团荣登2022山西省品牌十强

近日,“品牌强国(龙城)论坛”在太原举行,发布“2022中国上市公司品牌500强”以及“2022山西省品牌100强”。晋钢控股集团以218 9亿元的品牌更多

2023-03-06 17:38:52

手绘报告:2023预期目标

【来源:中国政府网】声明:转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请作者持权属证明发至邮箱newmedia@xx更多

2023-03-06 16:46:31

惠州首笔数字人民币缴纳税费业务成功落地

3月1日,TCL科技集团财务有限公司拿到了全市第一张使用数字人民币账户缴纳税款和非税收入的完税凭证,标志着惠州市首笔数字人民币缴纳税费业务更多

2023-03-06 11:50:50
    首套房公积金利率下调原来贷款也下调吗首套房公积金利率下调原来...
    政府回购商品房意味着什么政府收购商品房的首要目的是稳定市场。...
    把自己房子卖了再买算首套房吗买过一套房卖了再买算首套房。简单...
    买房交首付注意事项有哪些1、核实开发商五证。在交首付时,需要先...
    房屋契税征收比例契税税率的缴纳一般分为以下几种情况:1、面积小...
    房山区住建委近日发布《房山区2022年第二批毕业大学生对接保障性...

关于我们 Copyright   2015-2022 当代财经网  www.ddcjw.cn 版权所有  备案号:京ICP备2021034106号-19  联系邮箱:55 16 53 8 @qq.com