Normalized Attention Without Probability Cage
论文地址:
整体思路以及计算方式
本文对MHA中Softmax归一化方式提出了疑问,通过理论,实验的方式证明了其他归一化方式也能达到相当的效果。原文测试了很多种方法,这里给出效果最好的一种NormalizedAttentionPooling(NAP)的计算方式:
给定Q,K,V∈Rn×d
计算相似度str=qt⊤kr∈R
定义归一化函数:
normalize(x)jμxσx=g⋅σxxj−μx+b=N1j∑xj=N1j∑(xj−μx)2 按行归一化相似度:normalize([(st1,…,stn)])
剩余部分同MHA计算
时间复杂度
只是换了归一化的方式,所以时间复杂度为O(n2d)。
训练以及loss
没有变化。
代码
实验以及适用场景
适用于Encoder, Decoder;原论文只做了验证实验,没有跑性能实验。
细节
暂无。
简评
总结:
讨论了Softmax是否必要的问题,从验证实验上来说不是必须的;