IGLOO: Slicing the Features Space to Represent Sequences

论文地址:

整体思路以及计算方式

引入了一个全新的计算Attention的方式,主要分为两个部分IGLOO-base和IGLOO-seq,原论文写的非常不清楚,所以这里按照自己的理解进行梳理。

IGLOO-base(记为ff):

  • 输入:XRn×dX \in \mathbb R^{n\times d}

  • X1=Conv1d(X)Rn×d1X_1 = \mathrm{Conv1d}(X)\in \mathbb R^{n\times d_1}

  • 降采样:X2=DownSample(X1)Rm×d1X_2= \mathrm{DownSample}(X_1)\in \mathbb R^{m\times d_1}

  • 重复降采样ll次得到:X3=Concat([X2]1,,[X2]l)Rl×m×d1X_3 =\mathrm{Concat}([X_2]_1,\ldots, [X_2]_l)\in \mathbb R^{l\times m \times d_1}

  • O1=Sum(X3,d=1,2)RlO_1=\mathrm{Sum}(X_3, d=1,2)\in \mathbb R^{l}

  • 重复kk次可得ORk×lO\in \mathbb R^{k\times l}

IGLOO-seq:

  • 输入:XRn×d,YRn×dX\in \mathbb R^{n\times d}, Y \in \mathbb R^{n\times d}

  • T1=reshape(f(Q))Rn×1×d1T_1=\mathrm{reshape}(f(Q))\in \mathbb R^{n\times 1 \times d_1}

    • k=n,l=d1k=n,l=d_1

  • P=Softmax(T1)Rn×1×d1P=\mathrm{Softmax}(T_1)\in \mathbb R^{n\times 1 \times d_1}

  • T2=YW1Rn×dT_2=Y W_1\in \mathbb R^{n\times d}

  • T3=repeat(T2)Rn×d1×dT_3=\mathrm{repeat}(T_2)\in \mathbb R^{n\times d_1 \times d}

  • 可学习矩阵:BRn×1×dB\in \mathbb R^{n\times 1 \times d}

  • T4=T3BRn×d1×dT_4 = T_3\odot B \in \mathbb R^{n\times d_1 \times d}

  • O1=PT4Rn×1×dO_1=PT_4 \in \mathbb R^{n\times 1\times d}

  • O2=reshape(O1)Rn×dO_2=\mathrm{reshape}(O_1)\in \mathbb R^{n\times d}

时间复杂度

有点复杂,但关于nn应该是线性复杂度。

训练以及loss

不变。

代码

实验以及适用场景

作者做了一些实验,但是参数量无法对齐,所以有效性不太好说。

细节

暂无。

简评

论文写的非常不清楚,实验也不严格,是否有效需要验证。

Last updated