Skyformer Remodel Self-Attention with Gaussian Kernel and Nyström Method
论文地址:
整体思路以及计算方式
首先引入高斯核,将相似度矩阵表示为对称矩阵的子矩阵,然后利用Nyström方法计算对称矩阵,最后求出子矩阵。
符号说明:
Q∈Rn×d,K∈Rn×d,V∈Rn×d
S∈R2n×ds
整体思路如下:
相似度的计算方式修改:
Sij=exp(−2p∥qi−kj∥2) 记:
ϕ(p,q)=exp(−2p∥p−q∥2) 那么:
S=ϕ(Q,K)∈Rn×m 注意S不好处理,但是S为如下矩阵的子矩阵:
B=ϕ((QK),(QK)) 注意Bˉ为正定矩阵,所以可以用Nyström Method进行近似计算:
B~=BS(S⊤BS)†S⊤B 最后利用下式近似计算S:
B~:=(In,0)B~(0,In)⊤ 时间复杂度
首先分析矩阵的形状:
(In,0)BS∈Rn×ds
(S⊤BS)†∈Rds×ds
S⊤B(0,In)⊤∈Rds×n
总时间复杂度为O(ndsd)。
训练以及loss
不变。
代码
实验以及适用场景
实验结果比较少,主要是测试了近似误差和LRA,总体来说结果一般;测试的都是Encoder情形,Decoder情形可能较难实现。
细节
暂无。
简评
暂无。