系统回顾深度强化学习预训练,在线、离线等研究这一篇就够了

来源:机器之心时间:2022-11-13 16:58:50

机器之心专栏

机器之心编辑部

本文中,来自上海交通大学和腾讯的研究者系统地回顾了现有深度强化学习预训练研究,并提供了这些方法的分类,同时对每个子领域进行了探讨。


【资料图】

近年来,强化学习 ( RL ) 在深度学习的带动下发展迅速,从游戏到机器人领域的各种突破,激发了人们对设计复杂、大规模 RL 算法和系统的兴趣。然而,现有 RL 研究普遍让智能体在面对新的任务时只能从零开始学习,难以利用预先获取的先验知识来辅助决策,导致很大的计算开销。

而在监督学习领域,预训练范式已经被验证为有效的获得可迁移先验知识的方式,通过在大规模数据集上进行预训练,网络模型能够快速适应不同的下游任务上。相似的思路同样在 RL 中有所尝试,尤其是近段时间关于 " 通才 " 智能体 [ 1, 2 ] 的研究,让人不禁思考是否在 RL 领域也能诞生如 GPT-3 [ 3 ] 那样的通用预训练模型。

然而,预训练在 RL 领域的应用面临着诸多挑战,例如上下游任务之间的显著差异、预训练数据如何高效获取与利用、先验知识如何有效迁移等问题都阻碍了预训练范式在 RL 中的成功应用。同时,过往研究考虑的实验设定和方法存在很大差异,这令研究者很难在现实场景下设计合适的预训练模型。

为了梳理预训练在 RL 领域的发展以及未来可能的发展方向,来自上海交通大学和腾讯的研究者撰文综述,讨论现有 RL 预训练在不同设定下的细分方法和待解决的问题。

论文地址:https://arxiv.org/pdf/2211.03959.pdf

RL 预训练简介

强化学习(RL)为顺序决策提供了一个通用的数学形式。通过 RL 算法和深度神经网络,在不同领域的各种应用上实现了以数据驱动的方式、优化指定奖励函数学习到的智能体取得了超越人类的表现。然而,虽然 RL 已被证明可以有效地解决指定任务,但样本效率和泛化能力仍然是阻碍 RL 在现实世界应用中的两大障碍。在 RL 研究中,一个标准的范式是让智能体从自己或他人收集的经验中学习,针对单一任务,通过随机初始化来优化神经网络。与之相反,对人类来说,世界先验知识对决策过程有很大的帮助。如果任务与以前看到的任务有关,人类倾向于复用已经学到的知识来快速适应新的任务,而不需要从头开始学习。因此,与人类相比, RL 智能体存在数据效率低下问题,而且容易出现过拟合现象。

然而,机器学习其他领域的最新进展积极倡导利用从大规模预训练中构建的先验知识。通过对广泛的数据进行大规模训练,大型基础模型 ( foundation models ) 可以快速适应各种下游任务。这种预训练 - 微调范式在计算机视觉和自然语言处理等领域已被证明有效。然而,预训练还没有对 RL 领域产生重大影响。尽管这种方法很有前景,但设计大规模 RL 预训练的原则面临诸多挑战。1)领域和任务的多样性;2)有限的数据源;3)快速适应解决下游任务的难度。这些因素源于 RL 的内在特征,需要研究者加以特别考虑。

预训练对 RL 有很大的潜力,这项研究可以作为对这一方向感兴趣的人的起点。本文中,研究者试图对现有深度强化学习的预训练工作进行系统的回顾。

近年来,深度强化学习预训练经历了几次突破性进展。首先,基于专家示范的预训练使用监督学习来预测专家所采取的行动,已经在 AlphaGo 上得到应用。为了追求更少监督的大规模预训练,无监督 RL 领域发展迅速,它允许智能体在没有奖励信号的情况下从与环境的互动中学习。此外,离线强化学习 ( offline RL ) 发展迅猛,又促使研究人员进一步考虑如何利用无标签和次优的离线数据进行预训练。最后,基于多任务和多模态数据的离线训练方法进一步为通用的预训练范式铺平了道路。

在线预训练

以往 RL 的成功都是在密集和设计良好的奖励函数下实现的。在诸多领域取得巨大进展的传统 RL 范式,在扩展到大规模预训练时面临两个关键挑战。首先,RL 智能体很容易过拟合,用复杂的任务奖励预训练得到的智能体很难在从未见过的任务上取得很好的性能。此外,设计奖励函数通常十分昂贵,需要大量专家知识,这在实际中无疑是个很大的挑战。

无奖励信号的在线预训练可能会成为学习通用先验知识的可用解决方案,并且是无需人工参与的监督信号。在线预训练旨在在没有人类监督的情况下,通过与环境的交互来获得先验知识。在预训练阶段,智能体被允许与环境进行长时间的交互,但不能获得外在奖励。这种解决方案,也被称为无监督 RL,近年来研究者一直在积极研究。

为了激励智能体在没有任何监督信号的情况下从环境中获取先验知识,一种成熟的方法是为智能体设计内在奖励 ( intrinsic reward ) ,鼓励智能体通过收集多样的经验或掌握可迁移的技能,相应地设计奖励机制。先前研究已经表明,通过内在奖励和标准 RL 算法进行在线预训练,智能体能够快速适应下游任务。

离线预训练

尽管在线预训练在无需人类监督的情况下能够取得很好的预训练效果,但对于大规模应用来说,在线预训练仍然是有限的。毕竟,在线的交互与在大型和多样化的数据集上进行训练的需求在一定程度上是互斥的。为了解决这个问题,人们往往希望将数据收集和预训练环节脱钩,直接利用从其他智能体或人类收集的历史数据进行预训练。

一个可行的解决方案是离线强化学习。离线强化学习的目的是从离线数据中获得一个奖励最大化的 RL 策略。其所面临的一个基本挑战是分布偏移问题,即训练数据和测试期间看到的数据之间的分布差异。现有的离线强化学习方法关注如何在使用函数近似时解决这一挑战。例如,策略约束方法明确要求学到的策略避免采取数据集中未见的动作,价值正则化方法则通过将价值函数拟合到某种形式的下限,缓解了价值函数的高估问题。然而,离线训练的策略是否能泛化到离线数据集中未见的新环境中,仍然没有得到充分的探索。

或许,我们可以避开 RL 策略的学习,而是利用离线数据学习有利于下游任务的收敛速度或最终性能的先验知识。更有趣的是,如果我们的模型能够在没有人类监督的情况下利用离线数据,它就有可能从海量的数据中获益。本文中,研究者把这种设定称为离线预训练,智能体可以从离线数据中提取重要的信息(例如,良好的表征和行为先验)。

迈向通用智能体

在单一环境和单一模态下的预训练方法主要集中于以上提到的在线预训练和离线预训练设定,而在最近,领域内的研究者对建立一个单一的通用决策模型的兴趣激增(例如,Gato [ 1 ] 和 Multi-game DT [ 2 ] ),使得同一模型能够处理不同环境中不同模态的任务。为了使智能体能够从各种开放式任务中学习并适应这些任务,该研究希望能够利用不同形式的大量先验知识,如视觉感知和语言理解。更为重要地是,如果研究者能成功地在 RL 和其他领域的机器学习之间架起一座桥梁,将以前的成功经验结合起来,或许可以建立一个能够完成各种任务的通用智能体模型。

[ 1 ] Reed, Scott, et al. "A generalist agent." arXiv preprint arXiv:2205.06175 ( 2022 ) .

[ 2 ] Lee, Kuang-Huei, et al. "Multi-Game Decision Transformers." arXiv preprint arXiv:2205.15241 ( 2022 ) .

[ 3 ] Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 ( 2020 ) : 1877-1901.

THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

关键词: 先验知识 强化学习 的情况下

相关阅读

推荐阅读

筹划收购上海嘉行控股权好利科技11月14日起停牌4

北京商报讯(记者丁宁)11月13日晚间,好利科技(002729)发布公告称,公司正在筹划以发行股份及支付现金的方式购买资产并募集配套资金事项,更多

2022-11-13 16:44:53

每日速递:美利云:拟以重大资产置换及发股购买天

美利云11月13日公告,公司拟以重大资产置换及发行股份购买资产的方式购买天津力神电池股份有限公司持有的天津聚元新能源科技有限公司100%股权更多

2022-11-13 16:55:19

【世界时快讯】现代汽车与印尼阿达罗铝业签署供货

据韩联社报道,11月13日,现代汽车在与印尼阿达罗铝业签署了关于铝供应的业务协议(MOU)。根据协议,现代汽车将采购阿达罗铝业生产的铝,并在更多

2022-11-13 16:51:09

8天7板ST大集:新供销基金对公司尽调工作已取得重

ST大集11月13日公告,公司股票于11月9日、11月10日、11月11日连续三个交易日收盘价格涨幅偏离值累计达到12%以上,达成8天7板,根据《深圳证券交易所更多

2022-11-13 16:38:25

协鑫能科:拟参与斯诺威公司破产重整案,向移动能

协鑫能科11月13日公告,为完善公司移动能源产业布局,保障电池包有效供给,储备上游锂资源,公司拟参与雅江县斯诺威矿业发展有限公司破产重整更多

2022-11-13 16:37:15

环球今热点:俄媒:欧盟批准援助2.25亿欧元收购俄

参考消息网11月13日报道据俄罗斯卫星社12日报道,欧盟委员会批准援助德国超2亿欧元收购前俄气德国子公司100%股份。据报道,欧盟委员会批准德国更多

2022-11-13 15:54:54

当前快报:继美国科技巨头公司之后,这些国际大银

继美国科技巨头公司纷纷宣布进行大规模裁员之后,裁员潮也蔓延到大型金融机构。本周,英国巴克莱银行和美国花旗银行等都加入了最新裁员企业名更多

2022-11-13 15:53:41

世界播报:高新区7家孵化载体获评“省品牌科技企业

近日,在省科技厅的指导下,山东省科技企业孵化器行业协会发布了2022年度山东省30家品牌科技企业孵化器和50家品牌众创空间名单,高新区成功入更多

2022-11-13 15:58:50
    2022年三季报披露后,北京商报记者根据企业公告选取了30家上市房...
    首套房公积金利率下调原来贷款也下调吗首套房公积金利率下调原来...
    政府回购商品房意味着什么政府收购商品房的首要目的是稳定市场。...
    把自己房子卖了再买算首套房吗买过一套房卖了再买算首套房。简单...
    买房交首付注意事项有哪些1、核实开发商五证。在交首付时,需要先...
    房屋契税征收比例契税税率的缴纳一般分为以下几种情况:1、面积小...

Copyright   2015-2022 当代财经网  www.ddcjw.cn 版权所有  备案号:京ICP备2021034106号-19  联系邮箱:55 16 53 8 @qq.com