Linear Transformers Are Secretly Fast Weight Programmers
论文地址:
整体思路以及计算方式
指出了Linear Attention有容量问题,据此对Linear Attention进行了修改。
更新规则:
ki,vi,qiviβivi′Wi=Wkxi,Wvxi,Wqxi=W(i−1)ϕ(ki)=σ(Wβxi)=βivi+(1−βi)vi=Wi−1+β(i)(vi−vi)⊗ϕ(ki) 激活函数:
ϕ:Rd→R2d×ν 其中:
ϕiν(k)=r([k−k])ir([k−k])(i+ν)mod2di=1,…,2d 备注:这里省略了分母部分。
时间复杂度
O(nd2),由于使用了循环,计算比较慢。
训练以及loss
不变。
代码
实验以及适用场景
该方法是普适的。
细节
暂无。
简评
该工作属于LSTM之父的组,所以整个思路还是会向LSTM靠齐,由于无法并行,所以感觉方法一般,但是部分代码可以学习一下。