Linear Transformers Are Secretly Fast Weight Programmers
论文地址:
整体思路以及计算方式
指出了Linear Attention有容量问题,据此对Linear Attention进行了修改。
更新规则:
激活函数:
其中:
备注:这里省略了分母部分。
时间复杂度
,由于使用了循环,计算比较慢。
训练以及loss
不变。
代码
实验以及适用场景
该方法是普适的。
细节
暂无。
简评
该工作属于LSTM之父的组,所以整个思路还是会向LSTM靠齐,由于无法并行,所以感觉方法一般,但是部分代码可以学习一下。
PreviousWhen Attention Meets Fast Recurrence: Training Language Models with Reduced ComputeNextGoing Beyond Linear Transformers with Recurrent Fast Weight Programmers
Last updated