EL-Attention: Memory Efficient Lossless Attention for Generation

论文地址:

整体思路以及计算方式

思路非常简单,降低infercence时间复杂度:

  • 输入:XRn×dX\in \mathbb R^{n\times d}

  • W1=WQWKRd×d,W2=WvWoRd×dW_1= W_QW_K^{\top} \in \mathbb R^{d\times d}, W_2= W_v W_o \in \mathbb R^{d\times d}

  • S1=XW1XRn×n(=QK)S_1 = XW_1 X^{\top} \in \mathbb R^{n\times n}(=QK^{\top} )

  • O1=Softmax(S1)XW2Rn×dO_1=\mathrm{Softmax(S_1)}XW_2\in \mathbb R^{n\times d}

时间复杂度

不考虑。

训练以及loss

不考虑。

代码

实验以及适用场景

主要是用于inference,可以提升不少速度。

细节

暂无。

简评

非常好的思路,感觉可以尝试在training上。

Last updated