论文地址:
https://arxiv.org/abs/2106.06295arrow-up-right
首先回顾Linear Attention的计算方式:
其中⊗\otimes⊗表示向量外积。
作者将公式二改写为:
将公式一改写为:
O(nd2)O(nd^2)O(nd2),但是因为使用了循环,所以实际会慢很多。
不变。
https://github.com/IDSIA/recurrent-fwparrow-up-right
测试了各种场景,总体性能不错。
暂无。
把Attention修改为RNN,个人感觉是一种退步,不看好这个工作。
Last updated 2 years ago