论文地址:
整体思路以及计算方式
提出了一种Attention的计算方式,主要思想是将Q压缩为一个向量,这里带来的问题是,K交互的token变成了一个,所以应该会带来一些性能损失,计算公式如下:
输入:X∈Rn×d
cs=Softmax(XW1)∈Rn×1
Xk=XWk∈Rn×d,Xv=XWv∈Rn×d
cv=cs⊤Xk∈R1×d
O1=cv⊙ReLU(Xv)∈Rn×d
O2=O1Wo∈Rn×d
时间复杂度
O(nd2)。
训练以及loss
不变。
代码
实验以及适用场景
只适用于Encoder(cs的计算),性能尚可,作者这里考虑的主要是效率,从效率角度来说却是不错。
简评
思路总体来说是很简单的,可以考虑适配到NLP任务中。