论文地址:
https://arxiv.org/abs/2004.08249arrow-up-right
参考资料:
http://www.linzehui.me/2020/09/19/%E8%AE%BA%E6%96%87/%E6%AF%8F%E5%91%A8%E8%AE%BA%E6%96%8739/arrow-up-right
首先回顾PreNorm和PostNorm:
PreNorm:y=x+f(Norm(x))\mathbf y = \mathbf x+ f(\mathrm{Norm}(\mathbf x))y=x+f(Norm(x));
PostNorm:y=Norm(x+f(x))\mathbf y = \mathrm{Norm}(\mathbf x+ f(\mathbf x))y=Norm(x+f(x));
都知道PostNorm训练更不稳定,作者分析后得出原因是,PostNorm中f(x)f(\mathbf x)f(x)占的比例非常大,而PreNorm中f(x)f(\mathbf x)f(x)占的比例相对较小,作者提供的解决方案是,将PostNorm的公式修改为:
其中www是估计得到的参数。
根据这个思路,可以对PreNorm做一个改进:
Last updated 2 years ago