Transformer-Evolution-Paper
Search...
Ctrl
K
Normalize_And_Residual
Transformers without Tears: Improving the Normalization of Self-Attention
Previous
On Layer Normalizations and Residual Connections in Transformers
Next
Query-Key Normalization for Transformers
Last updated
2 years ago
论文地址:
整体思路以及计算方式
对layernorm的改进:
ScaleNorm
(
x
;
g
)
=
g
x
∥
x
∥
\operatorname{ScaleNorm}(\mathbf{x} ; g)=g \frac{\mathbf{x}}{\|\mathbf{x}\|}
ScaleNorm
(
x
;
g
)
=
g
∥
x
∥
x
时间复杂度
不考虑。
训练以及loss
不变。
代码
实验以及适用场景
适用于所有场景,作者测试了机器翻译,获得了一定的提升。
细节
暂无。
简评
值得实现。
https://arxiv.org/abs/1910.05895
https://github.com/tnq177/transformers_without_tears