Last updated 2 years ago
论文地址:
引入了一个全新的计算Attention的方式,主要分为两个部分IGLOO-base和IGLOO-seq,原论文写的非常不清楚,所以这里按照自己的理解进行梳理。
IGLOO-base(记为fff):
输入:X∈Rn×dX \in \mathbb R^{n\times d}X∈Rn×d
X1=Conv1d(X)∈Rn×d1X_1 = \mathrm{Conv1d}(X)\in \mathbb R^{n\times d_1}X1=Conv1d(X)∈Rn×d1
降采样:X2=DownSample(X1)∈Rm×d1X_2= \mathrm{DownSample}(X_1)\in \mathbb R^{m\times d_1}X2=DownSample(X1)∈Rm×d1
重复降采样lll次得到:X3=Concat([X2]1,…,[X2]l)∈Rl×m×d1X_3 =\mathrm{Concat}([X_2]_1,\ldots, [X_2]_l)\in \mathbb R^{l\times m \times d_1}X3=Concat([X2]1,…,[X2]l)∈Rl×m×d1
O1=Sum(X3,d=1,2)∈RlO_1=\mathrm{Sum}(X_3, d=1,2)\in \mathbb R^{l}O1=Sum(X3,d=1,2)∈Rl
重复kkk次可得O∈Rk×lO\in \mathbb R^{k\times l}O∈Rk×l
IGLOO-seq:
输入:X∈Rn×d,Y∈Rn×dX\in \mathbb R^{n\times d}, Y \in \mathbb R^{n\times d}X∈Rn×d,Y∈Rn×d
T1=reshape(f(Q))∈Rn×1×d1T_1=\mathrm{reshape}(f(Q))\in \mathbb R^{n\times 1 \times d_1}T1=reshape(f(Q))∈Rn×1×d1
k=n,l=d1k=n,l=d_1k=n,l=d1
P=Softmax(T1)∈Rn×1×d1P=\mathrm{Softmax}(T_1)\in \mathbb R^{n\times 1 \times d_1}P=Softmax(T1)∈Rn×1×d1
T2=YW1∈Rn×dT_2=Y W_1\in \mathbb R^{n\times d}T2=YW1∈Rn×d
T3=repeat(T2)∈Rn×d1×dT_3=\mathrm{repeat}(T_2)\in \mathbb R^{n\times d_1 \times d}T3=repeat(T2)∈Rn×d1×d
可学习矩阵:B∈Rn×1×dB\in \mathbb R^{n\times 1 \times d}B∈Rn×1×d
T4=T3⊙B∈Rn×d1×dT_4 = T_3\odot B \in \mathbb R^{n\times d_1 \times d}T4=T3⊙B∈Rn×d1×d
O1=PT4∈Rn×1×dO_1=PT_4 \in \mathbb R^{n\times 1\times d}O1=PT4∈Rn×1×d
O2=reshape(O1)∈Rn×dO_2=\mathrm{reshape}(O_1)\in \mathbb R^{n\times d}O2=reshape(O1)∈Rn×d
有点复杂,但关于nnn应该是线性复杂度。
不变。
作者做了一些实验,但是参数量无法对齐,所以有效性不太好说。
暂无。
论文写的非常不清楚,实验也不严格,是否有效需要验证。