Transformers without Tears: Improving the Normalization of Self-Attention
PreviousOn Layer Normalizations and Residual Connections in TransformersNextQuery-Key Normalization for Transformers
Last updated
Last updated
论文地址:
对layernorm的改进:
不考虑。
不变。
适用于所有场景,作者测试了机器翻译,获得了一定的提升。
暂无。
值得实现。