Last updated 2 years ago
论文地址:
文章先把Self Attention的置换不变性(f(PX)=Pf(X)f(\mathbf P\mathbf X)=\mathbf P f(\mathbf X)f(PX)=Pf(X))推广为正交不变性(P\mathbf PP从置换矩阵推广为正交矩阵),然后证明其形式为:
接着推广到一般的Attention,即f(X,Z)f(\mathbf X, \mathbf Z)f(X,Z),作者证明其形式可以表达为:
那么就和Attention的形式非常类似。