Normalized Attention Without Probability Cage
Last updated
Last updated
论文地址:
本文对中归一化方式提出了疑问,通过理论,实验的方式证明了其他归一化方式也能达到相当的效果。原文测试了很多种方法,这里给出效果最好的一种的计算方式:
给定
计算相似度
定义归一化函数:
按行归一化相似度:
剩余部分同计算
只是换了归一化的方式,所以时间复杂度为。
没有变化。
适用于Encoder, Decoder;原论文只做了验证实验,没有跑性能实验。
暂无。
总结:
比较简单,值得复现;
讨论了是否必要的问题,从验证实验上来说不是必须的;