IGLOO: Slicing the Features Space to Represent Sequences
论文地址:
整体思路以及计算方式
引入了一个全新的计算Attention的方式,主要分为两个部分IGLOO-base和IGLOO-seq,原论文写的非常不清楚,所以这里按照自己的理解进行梳理。
IGLOO-base(记为f):
输入:X∈Rn×d
X1=Conv1d(X)∈Rn×d1
降采样:X2=DownSample(X1)∈Rm×d1
重复降采样l次得到:X3=Concat([X2]1,…,[X2]l)∈Rl×m×d1
O1=Sum(X3,d=1,2)∈Rl
重复k次可得O∈Rk×l
IGLOO-seq:
输入:X∈Rn×d,Y∈Rn×d
T1=reshape(f(Q))∈Rn×1×d1
k=n,l=d1
P=Softmax(T1)∈Rn×1×d1
T2=YW1∈Rn×d
T3=repeat(T2)∈Rn×d1×d
可学习矩阵:B∈Rn×1×d
T4=T3⊙B∈Rn×d1×d
O1=PT4∈Rn×1×d
O2=reshape(O1)∈Rn×d
时间复杂度
有点复杂,但关于n应该是线性复杂度。
训练以及loss
不变。
代码
实验以及适用场景
作者做了一些实验,但是参数量无法对齐,所以有效性不太好说。
细节
暂无。
简评
论文写的非常不清楚,实验也不严格,是否有效需要验证。