Transformer with Fourier Integral Attentions
论文地址:
整体思路以及计算方式
利用非参数回归的方式对Attention进行改进,整体思路分为两步:
非参数回归:
vj=f(kj)+εj
E[v∣k]=∫RDv⋅p(v∣k)dv=∫p(k)v⋅p(v,k)dv
利用Kernel法估计概率密度(φ为高斯核函数):
p^σ(v,k)=N1j=1∑Nφσ(v−vj)φσ(k−kj),p^σ(k)=N1j=1∑Nφσ(k−kj) 带入:fσ(k)=E[v∣k]=∑j=1Nφσ(k−kj)∑j=1Nvjφσ(k−kj)
将k换成q得到:
fσ(qi)=∑jNexp(−∥qi−kj∥2/2σ2)∑jNvjexp(−∥qi−kj∥2/2σ2)=∑jNexp[−(∥qi∥2+∥kj′∥2)/2σ2]exp(qikj⊤/σ2)∑jNvjexp[−(∥qi∥2+∥kj∥2)/2σ2]exp(qikj⊤/σ2) 如果假设∥qi∥=∥kj∥,那么上式退化为Attention,由此作者说该方法是Attention的推广;
计算:
作者利用傅里叶定理求解非参数回归问题,思路为利用傅里叶积分定理计算φσ(k−kj);
直接给出计算公式:
h^i:=fN,R(qi)=∑i=1N∏j=1Dϕ(R(qij−kij)sin(R(qij−kij)))∑i=1Nvi∏j=1Dϕ(R(qij−kij)sin(R(qij−kij)))
时间复杂度
依然为O(n2d),所以理论复杂度没有改进,根据计算的形式,推测速度会慢。
训练以及loss
不变。
代码
实验以及适用场景
适用于Encoder, Decoder,结果有所提升。
细节
暂无。
简评
不错的一个思路,让人眼前一亮。