Understanding the difficulty of training transformers

论文地址：

参考资料：

整体思路以及计算方式

首先回顾PreNorm和PostNorm：

都知道PostNorm训练更不稳定，作者分析后得出原因是，PostNorm中 $f(\mathbf x)$ 占的比例非常大，而PreNorm中 $f(\mathbf x)$ 占的比例相对较小，作者提供的解决方案是，将PostNorm的公式修改为：

\mathbf y = \mathrm{Norm}(w.\mathbf x+ f(\mathbf x)).

其中 $w$ 是估计得到的参数。

根据这个思路，可以对PreNorm做一个改进：

\mathbf y = \mathrm{Norm}(\mathbf x+ w.f(\mathbf x)).

Last updated 2 years ago