Going Beyond Linear Transformers with Recurrent Fast Weight Programmers
论文地址:
整体思路以及计算方式
首先回顾Linear Attention的计算方式:
kt,vt,qtWtyt=Wkxt,Wvxt,Wqxt=Wt−1+vt⊗kt=Wtqt 其中⊗表示向量外积。
作者将公式二改写为:
Wt=Wt−1+βt(vt−vt)⊗kt 将公式一改写为:
ktvtqtβt=Wkxt+Rktanh(yt−1)=Wvxt+Rvtanh(yt−1)=Wqxt+Rqtanh(yt−1)=σ(Wβxt+Rβtanh(yt−1)) 时间复杂度
O(nd2),但是因为使用了循环,所以实际会慢很多。
训练以及loss
不变。
代码
实验以及适用场景
测试了各种场景,总体性能不错。
细节
暂无。
简评
把Attention修改为RNN,个人感觉是一种退步,不看好这个工作。