Transformers without Tears: Improving the Normalization of Self-Attention
论文地址:
整体思路以及计算方式
对layernorm的改进:
时间复杂度
不考虑。
训练以及loss
不变。
代码
实验以及适用场景
适用于所有场景,作者测试了机器翻译,获得了一定的提升。
细节
暂无。
简评
值得实现。
PreviousOn Layer Normalizations and Residual Connections in TransformersNextQuery-Key Normalization for Transformers
Last updated