Block-Recurrent Transformers
论文地址:
整体思路以及计算方式
利用Memory的方式增加Transformer的性能,利用窗口的方式降低计算复杂度,对Memory部分使用递归的方式更新。
计算方式:
输入:X∈Rn×d,M∈Rm×d;
输出部分更新方式:
X1=MHAw(X,X)∈Rn×d
Y1=MHAw(X,M)∈Rn×d
O=[X1,Y1]W∈Rn×d
Memory部分更新方式:
M1=MHAw(M,M)∈Rm×d
Y1=MHAw(M,X)∈Rm×d
O=[M1,Y1]W∈Rm×d
备注,这里省略了ffn部分,其中M的ffn为rnn。
整体结构:
时间复杂度
O((n+m)wd)。
训练以及loss
不变。
代码
实验以及适用场景
论文测试了lm,效果还不错。
细节
暂无。
简评
依然是一个空间换性能的方法。