参考文献

注册

 

发新话题 回复该主题

漫谈强化学习中的引导搜索策略 [复制链接]

1#
北京哪家医院能看好白癜风 https://wapjbk.39.net/yiyuanfengcai/tsyl_bjzkbdfyy/

?PaperWeekly原创·作者|李文浩

学校|华东师范大学博士生

研究方向|强化学习

本文将介绍GPS方法,GPS方法是由强化学习大牛SergeyLevine(在最近的ICLR发表了13篇论文)于年提出的,目前被作为基础算法广泛应用于各种强化学习任务中。其出发点在于纯粹的策略梯度方法在更新参数时不会用到环境模型因而属于一种无模型强化学习算法,所谓成也萧何败也萧何,虽然这使得策略梯度方法通用性很好,但是由于没有利用到任何环境的内在属性,使得其训练只能完全依靠试错,效率较低。基于模型的路径优化算法(例如iLQR)方法,能够充分利用环境模型,从而在利用较少训练样本的情况下即可使得算法收敛到局部最优解。但是路径优化算法是一个开环方法,在随机环境下效果较差,虽然能够通过使用MPC方法(基本思想是每次只执行路径优化算法输出的第一个时间步的动作)来增加算法的稳定性,但是执行时耗时较长无法适用于实时任务。但是策略梯度方法是一个闭环方法,因而其对于随即环境的适应能力以及执行耗时上都能达到很好的效果。因而一个直观的想法是,能不能将两者结合起来,用路径优化算法的输出结果来指导策略梯度方法的训练过程,从而提升策略梯度方法的效率呢?GPS方法正是基于这种思想提出的。本文主要对早期GPS的三篇论文进行了总结(还包括了一些其他论文的相关结论),具体请参阅文末的参考文献。文章的结构如下:第一部分将会对最原始的GPS方法进行介绍,第二部分将会介绍一个改进版本。注意,这两种版本的GPS算法都必须事先已知环境模型。第三部分将介绍一个在未知环境模型(需要在算法训练的过程中对环境模型进行局部估计)的情况下也能够使用的GPS算法。以上三种GPS算法均属于基于模型的强化学习算法(以后我将专门写一篇文章来介绍基于模型的强化学习算法)。为了方便起见,我将最原始的GPS算法记为GPS-V1(ICML)[2],改进版记为GPS-V2(ICML)[3],最后一个版本记为GPS-V3(NIPS)[4]。GPS-V1原始版本的GPS算法基本思想是首先使用路径优化算法产生一些训练数据并加入训练集中用以指导后续策略梯度方法的训练。但是策略梯度方法是在线策略算法,只能使用当前策略采样得到的数据来估计梯度从而更新参数。为了能够使用其他策略采样的数据,这里必须要使用一种技术:重要性采样。在这里我首先跑一下题来介绍一下重要性采样。1.1重要性采样对于一个函数

以及一个概率分布

,我们想要计算如下统计量:我们知道,一般估计一个期望值的方法是从变量从属的概率分布中进行采样,然后计算均值。但是实际上概率分布

可能非常复杂,我们没有办法从其中进行采样。重要性采样方法通过从另外一个较为简单的分布

中采样出的样本对以上期望值进行估计:1.2基于重要性采样的策略梯度方法让我们回到正题,利用这种方法就可以在估计当前正在学习的策略的梯度时采用其他策略采样出的样本:其中。从理论上来说

才是期望的无偏估计,这里为了减小训练时的方差采用了这个特殊值。但是我们是在其他策略采样出的样本分布的基础上进行新策略的搜索,一旦新策略的样本分布与采样样本分布相距较远时,无法保证估计梯度的准确性。前面有工作是通过计算重要性权重的方差来判断新策略的准确性的[6],但是对于很长的路径,重要性权重在大部分地方都为0,方差也很小,但是并不能说明什么问题。V1版本的GPS算法通过在优化目标上额外加入重要性权重的对数值的方式,来“软最大化”重要性权重值,毕竟重要性权重越大,代表新策略分布与采样分布更为接近(但其实在采样分布概率较小的地方新策略分配一个较大的概率也会使得这个值比较大,所以感觉这种方法还是有很大缺陷的):1.3指导样本的生成GPS系列算法希望使用路径优化算法生成的指导样本来引导策略梯度算法往高回报的区域搜索(而非暴力试错)。在之前的文章中我们讲过iLQR算法,但是只展开讲了确定性情况下的相关知识。而策略梯度算法的应用场景大部分都是非确定性场景,即使是确定性场景,也会因为噪声的存在使其实际上同样是非确定性的。因而,下面我们主要

分享 转发
TOP
发新话题 回复该主题