论文地址:
https://arxiv.org/abs/2109.02377arrow-up-right
整体思路是介绍一种适用于Linear Attention的相对位置编码方式。在Vanilla Attention中,因为会计算S=QK⊤\mathbf S=\mathbf Q \mathbf K^{\top}S=QK⊤,所以可以使用各种各样的相对位置编码。但是在Linear Attention中,因为不计算S\mathbf SS,所以可以使用的相对位置编码较少,本文就是解决这点,最后提供的方案为:
这里Pπ\mathbf P_{\pi}Pπ为置换矩阵,0<r<10<r<10<r<1,rrr的本意是想提供远程衰减性,但是个人认为这里的实现不太合理,因为ri−j≠rj−ir^{i-j}\neq r^{j-i}ri−j=rj−i,不过论文似乎效果还不错。
不考虑。
不变。
https://github.com/cpcp1998/PermuteFormerarrow-up-right
总体来说,都提升了Performer的效果。
暂无。
思路很巧妙,性能也不错,值得复现的工作。
Last updated 3 years ago