雷锋网AI科技评论按:这篇来自谷歌大脑DavidHa等人的博客介绍了自我注意力+演化算法得到的最新强化学习智能体研究成果,只需要传统方法千分之一的参数数量就可以得到同等的表现以及更好的泛化能力。雷锋网AI科技评论编译如下,有删节。
简介
深度学习社区中对于大型神经网络的泛化性能已经有过很多讨论。尽管大型神经网络比更小的网络泛化得更好,但是原因并不是因为前者具有更多的权重参数,而是正如最近的一项研究工作所显示的,是因而更大的网络可以让优化算法在允许的一小部分解空间内找到好的解或者“彩票”。
这些解可以被剪枝来形成具有良好归纳偏置的子网络,它们具有理想的泛化性能。
最近,神经科学界对深度学习提出了评论,指出动物天生具有高度结构化的大脑连接,而这些连接过于复杂,无法在基因组中显示指定,而是必须通过“基因组瓶颈”压缩成信息编码到指定了一套大脑连接规则的基因组中。
先天的处理过程和行为由进化编码到基因组中,正如动物大脑中许多神经回路都是预先连接好并且从出生起就准备好了需要的操作一样。这些先天能力让动物能够较轻易地拥有泛化能力,以及快速适应不同环境。
实际上,在神经进化领域中,有一个关于进化遗传瓶颈的相关研究领域,叫做间接编码。类似于彩票解的剪枝,间接编码方法不仅可以表达大型神经架构,同时还能最小化无模型参数的数量。
研究者认为,这项间接编码的工作所奠定的基础,有助于更好地理解神经网络的归纳偏置,并为解决领域外的泛化问题提供新的视角。
目前大多数训练神经网络的方法,无论是采用梯度下降策略还是进化策略,都是为给定神经网络的每个单独权重参数求值,这些方法就称作直接编码。
而另一方面,间接编码则他提供了一种完全不同的方法,它们针对指定如何生成(更大得多的)神经网络的一小组规则或操作(称作基因型)进行优化。一般而言,表型包括神经架构及其权重,然而现在的间接编码方法通常仅生成使用一小组基因型参数的预定义架构的权重。
在深度强化学习流行之前,神经进化文献中的间接编码方法对于最终会用到深度强化学习解决方案的问题类型而言,是一种有前景的方法。早期的研究表明,对于基于视觉的强化问题,大型神经网络可以被编码成更小得多的基因型解决方案,它们能够玩像素级的Atari游戏(年仍被认为具有挑战性)或直接基于像素输入玩赛车游戏,这都表明了间接编码的潜在能力。
甚至在深度学习和卷积网络在年开始受到重视之前,间接编码就已经能够让神经网络控制器玩具有结构性规则的棋盘游戏,如跳棋和围棋。
通过对具有少量参数的大型模型的权值进行编码,可以大大减少解的搜索空间,但随之付出的代价是将的解限制在由直接编码方法提供的所有可能解的一个小的子空间内。
这一限制自然而然地将一个决定智能体擅长什么以及取决于直接编码方法选择的归纳偏置合并到智能体中。例如,HyperNEAT在机器人步态控制方面取得了成功,这表明CPPNs4能够有效地表征适于移动的模块化和对称性。但是,是否有更适合基于视觉的强化学习任务的间接编码方法呢?
在这项工作中,研究者发现自注意力可以被视为一种间接编码的形式,这使得他们能够构建高参数效率的智能体。他们研究了这些智能体在基于视觉的强化学习任务中的性能和泛化特性。
Transformer模型成功地应用于自然语言处理和视觉等领域,让自注意力流行起来。自注意力提供了一个简单而强大的方法:仅使用O(d)个参数值就能参数化一个大小为O(n2)的大型权重矩阵,其中n表示可视输入的大小,d表示某些转换空间的维数,并且nd。
此外,这种参数化强制使用归纳偏倚,从而让智能体只