Understanding the difficulty of training transformers
论文地址:
参考资料:
整体思路以及计算方式
首先回顾PreNorm和PostNorm:
PreNorm:y=x+f(Norm(x));
PostNorm:y=Norm(x+f(x));
都知道PostNorm训练更不稳定,作者分析后得出原因是,PostNorm中f(x)占的比例非常大,而PreNorm中f(x)占的比例相对较小,作者提供的解决方案是,将PostNorm的公式修改为:
y=Norm(w.x+f(x)). 其中w是估计得到的参数。
简评
根据这个思路,可以对PreNorm做一个改进:
y=Norm(x+w.f(x)).