论文地址:
https://arxiv.org/abs/2206.00206arrow-up-right
利用非参数回归的方式对Attention进行改进,整体思路分为两步:
非参数回归:
vj=f(kj)+εj{v}_{j}=f\left({k}_{j}\right)+\varepsilon_{j}vj=f(kj)+εj
E[v∣k]=∫RDv⋅p(v∣k)dv=∫v⋅p(v,k)p(k)dv{\mathbb E}[{v} \mid {k}]=\int_{{R}^{D}} {v} \cdot p({v} \mid {k}) d {v}=\int \frac{{v} \cdot p({v}, {k})}{p({k})} d {v}E[v∣k]=∫RDv⋅p(v∣k)dv=∫p(k)v⋅p(v,k)dv
利用Kernel法估计概率密度(φ\varphiφ为高斯核函数):
带入:f^σ(k)=E[v∣k]=∑j=1Nvjφσ(k−kj)∑j=1Nφσ(k−kj)\widehat{f}_{\sigma}({k})={\mathbb E}[{v} \mid {k}]= \frac{\sum_{j=1}^{N} v_{j} \varphi_{\sigma}\left({k}-{k}_{j}\right)}{\sum_{j=1}^{N} \varphi_{\sigma}\left({k}-{k}_{j}\right)}fσ(k)=E[v∣k]=∑j=1Nφσ(k−kj)∑j=1Nvjφσ(k−kj)
将kkk换成qqq得到:
如果假设∥qi∥=∥kj∥\|q_i\| = \|k_j\|∥qi∥=∥kj∥,那么上式退化为Attention,由此作者说该方法是Attention的推广;
计算:
作者利用傅里叶定理求解非参数回归问题,思路为利用傅里叶积分定理计算φσ(k−kj)\varphi_{\sigma}\left({k}-{k}_{j}\right)φσ(k−kj);
直接给出计算公式:
这里ϕ\phiϕ是一个函数,论文里有介绍。
依然为O(n2d)O(n^2d)O(n2d),所以理论复杂度没有改进,根据计算的形式,推测速度会慢。
不变。
https://github.com/minhtannguyen/FourierFormer_NeurIPSarrow-up-right
适用于Encoder, Decoder,结果有所提升。
暂无。
不错的一个思路,让人眼前一亮。
Last updated 2 years ago