Momentum Transformer: Closing the Performance Gap Between Self-attention and Its Linearization
论文地址:
整体思路以及计算方式
在Linear Attention的RNN版本中添加动量项来提升性能,从底层原理上来看,实际上是给Linear Attention添加了指数衰减的相对位置编码。
Linear Attention的RNN形式:
siziv^i=si−1+ϕ(ki)vi⊤=zi−1+ϕ(ki)=ϕ(qi)⊤ziϕ(qi)⊤si 动量形式:
misiziv^i=βmi−1−ϕ(ki)vi⊤=si−1−γmi=zi−1+ϕ(ki)=ϕ(qi)⊤ziϕ(qi)⊤si 并行形式:
v^i=ϕ(qi)⊤ziγϕ(qi)⊤∑j=1i(1−β1−βi−j+1ϕ(kj)vj⊤) 可以看到最后的形式多了一个指数衰减的相对位置编码,这是最后性能提升的根本原因。
代码
简评
最后的形式是很简单的,我也进行过相关实验,确实有一定的提升。