论文地址:
https://arxiv.org/abs/2208.00579arrow-up-right
在Linear Attention的RNN版本中添加动量项来提升性能,从底层原理上来看,实际上是给Linear Attention添加了指数衰减的相对位置编码。
Linear Attention的RNN形式:
动量形式:
并行形式:
可以看到最后的形式多了一个指数衰减的相对位置编码,这是最后性能提升的根本原因。
https://github.com/minhtannguyen/momentum-transformer-code-submissionarrow-up-right
最后的形式是很简单的,我也进行过相关实验,确实有一定的提升。
Last updated 2 years ago