论文地址:
https://arxiv.org/abs/2102.11174arrow-up-right
指出了Linear Attention有容量问题,据此对Linear Attention进行了修改。
更新规则:
激活函数:
其中:
备注:这里省略了分母部分。
O(nd2)O(nd^2)O(nd2),由于使用了循环,计算比较慢。
不变。
https://github.com/ischlag/fast-weight-transformersarrow-up-right
https://github.com/IDSIA/lmtool-fwparrow-up-right
该方法是普适的。
暂无。
该工作属于LSTM之父的组,所以整个思路还是会向LSTM靠齐,由于无法并行,所以感觉方法一般,但是部分代码可以学习一下。
Last updated 2 years ago