论文地址:
https://aclanthology.org/2020.findings-emnlp.379/arrow-up-right
Attention中计算Softmax之前需要先除以d\sqrt dd,其原因是为了缩小极值的影响(避免出现One-hot情形),这篇文章是对这点改进:
最后的计算方式为:
其中ggg为可学习的参数,初始化为:
其中LLL和序列长度有关(序列长度的97.5分位数),g0g_0g0的含义为Attention Matrix独立元素的信息熵。
不变。
https://github.com/CyndxAI/QKNormarrow-up-right
适用于所有场景,在NMT中性能有提升。
暂无。
很合理的一个思路,可以减少Attention的工程部分,Swin-V2中也使用了这个思路。
Last updated 3 years ago