论文地址:
整体思路以及计算方式
整体思路是从Kernel的角度理解Attention,然后调整内积的计算方式:
输入X∈Rn×d,位置矩阵P∈Rn×d
Q=XWQ∈Rn×d,K=XWK∈Rn×d
QP=PW1∈Rn×d,KP=PW2∈Rn×d
内积计算QK⊤+QPQK⊤∈Rn×n
作者还测试了一些Kernel的性能:
f(x,y)=x⊤y(非常差)
f(x,y)=(x⊤y)2(很差)
f(x,y)=exp(x⊤y)(默认设置,效果不错)
f(x,y)=exp(−∥x−y∥2)(效果不错,和前者接近)
时间复杂度
不变。
训练以及loss
不变。
代码
实验以及适用场景
适用于所有场景,该论文是分析性的文章,性能不是卖点。
细节
作者给出了permutation equivariant的严格定义,还讨论了Value中是否应该包含位置信息,结论是不一定需要。
简评
提供了一个新的角度,之前也看过这篇论文,但没细看,这次重读得到了一些新的信息。