GMAT Global Memory Augmentation for Transformers
论文地址:
整体思路以及计算方式
整体思路是attention模块增加memory模块,为了验证memory模块有效性,作者使用chunk的方式计算attention(因为无法捕捉全局信息)。
整体计算方式如下:
输入:X∈Rn×d
memory:XM∈Rm×d
记:
Y=[XXM]∈R(n+m)×d for i=1,…,n1:
XM=MHA(XM,Y)∈Rm×d
for i=1,…,n2:
XM=MHA(XM,XM)∈Rm×d
for i=1,…,n3:
X=MHA(X,Y)∈Rn×d
每个阶段的作用分别为:
时间复杂度
O(m(m+n)d),其中m是memory长度。
训练以及loss
不变。
代码
实验以及适用场景
适用于所有场景,可以带来一定提升。
细节
暂无。
简评
主要是验证这样训练设置下,memory的有效性,不过改方法应该会增加不少时间复杂度,所以是否值得有待商榷。