Geoffrey Hinton最新论文:层归一化

Geoffrey Hinton最近介绍一种名为batch normalization的技术在小批量的训练案例上使用一个神经元总结输入( summed input)的分布计算均值与方差,然后用它们归一这一神经元在每个训练案例上的总结输入。

摘要:训练最先进的深度神经网络计算成本昂贵。减少训练时间的一个方式是将神经元活动归一化。最近介绍的一种名为batch normalization 的技术在小批量(mini-batch)的训练案例上使用一个神经元总结输入( summed input)的分布计算均值与方差,然后用它们归一这一神经元在每个训练案例上的总结输入。这明显减少了前馈神经网络中的训练时间。然而,batch normalization 的效果依赖于 mini-batch 的大小,而且如何应用于循环神经网络也不明显。在此论文中,我们通过计算来自单一训练案例中一层神经元的所有总结输入的均值与方差(用于归一化的),将 batch normalization 调换为层归一化(layer normalization)。如同 batch normalization,我们也给每一个神经元自己的适应偏差( adaptive bias)与增益,它们在归一化之后、非线性(non-linearity)之前被使用。不同于 batch normalization,层归一化在训练以及测试时间上表现出完全同样的计算能力。它也能通过分别计算每一时间步骤上的归一化统计( normalization statistics)直接应用于循环神经网络。层归一化在循环网络中的隐态动态的稳定上非常有效。经验上,我们的结果显示相比于先前公开的技术,层归一化能充分的减少训练时间。

本文选自:arXiv.org,作者:Jimmy Lei Ba、Jamie Ryan Kiros、Geoffrey E. Hinton,机器之心编译;

©机器之心,最专业的前沿科技媒体和产业服务平台,每日提供优质产业资讯与深度思考,欢迎关注微信公众号「机器之心」(almosthuman2014),或登录机器之心网站www.jiqizhixin.com  , 查看更多精彩内容。