Transformers without Tears: Improving the Normalization of Self-Attention

论文地址:

整体思路以及计算方式

对layernorm的改进:

ScaleNorm(x;g)=gxx\operatorname{ScaleNorm}(\mathbf{x} ; g)=g \frac{\mathbf{x}}{\|\mathbf{x}\|}

时间复杂度

不考虑。

训练以及loss

不变。

代码

实验以及适用场景

适用于所有场景,作者测试了机器翻译,获得了一定的提升。

细节

暂无。

简评

值得实现。

Last updated