Recurrent Memory Transformer
Last updated
Last updated
论文地址:
对Transformer-XL做了改进,增加了读写内存(可微),整体流程如下:
输入:;
分块成为;
记忆Token:;
对于第层Transformer Layer:
初始化;
对于:
拼接:;
;
更新:;
下一层的记忆Token为:;
图示:
,所以序列关于序列长度是线性的。
不变。
适用于Encoder和Decoder。
暂无。
整体思路是首先用window attention计算,但是跨window之间没有信息交互,global memory的动机就是弥补这点:在第个window中,global memory有前个window的信息,所以当前window的token和global memory的交互可以一定程度上代表和前个window中全部的token进行交互,从而完成跨window的交互,所以本质上还是local-global的思路。