Understanding the difficulty of training transformers

论文地址:

参考资料:

整体思路以及计算方式

首先回顾PreNorm和PostNorm:

  • PreNorm:y=x+f(Norm(x))\mathbf y = \mathbf x+ f(\mathrm{Norm}(\mathbf x))

  • PostNorm:y=Norm(x+f(x))\mathbf y = \mathrm{Norm}(\mathbf x+ f(\mathbf x))

都知道PostNorm训练更不稳定,作者分析后得出原因是,PostNorm中f(x)f(\mathbf x)占的比例非常大,而PreNorm中f(x)f(\mathbf x)占的比例相对较小,作者提供的解决方案是,将PostNorm的公式修改为:

y=Norm(w.x+f(x)).\mathbf y = \mathrm{Norm}(w.\mathbf x+ f(\mathbf x)).

其中ww是估计得到的参数。

简评

根据这个思路,可以对PreNorm做一个改进:

y=Norm(x+w.f(x)).\mathbf y = \mathrm{Norm}(\mathbf x+ w.f(\mathbf x)).

Last updated