PermuteFormer Efficient Relative Position Encoding for Long Sequences
论文地址:
整体思路以及计算方式
整体思路是介绍一种适用于Linear Attention的相对位置编码方式。在Vanilla Attention中,因为会计算,所以可以使用各种各样的相对位置编码。但是在Linear Attention中,因为不计算,所以可以使用的相对位置编码较少,本文就是解决这点,最后提供的方案为:
这里为置换矩阵,,的本意是想提供远程衰减性,但是个人认为这里的实现不太合理,因为,不过论文似乎效果还不错。
时间复杂度
不考虑。
训练以及loss
不变。
代码
实验以及适用场景
总体来说,都提升了Performer的效果。
细节
暂无。
简评
思路很巧妙,性能也不错,值得复现的工作。
PreviousKERPLE Kernelized Relative Positional Embedding for Length ExtrapolationNextRethinking Positional Encoding in Language Pre-training
Last updated