GMAT Global Memory Augmentation for Transformers
Last updated
Last updated
论文地址:
整体思路是attention模块增加memory模块,为了验证memory模块有效性,作者使用chunk的方式计算attention(因为无法捕捉全局信息)。
整体计算方式如下:
输入:
memory:
记:
for :
for :
for :
每个阶段的作用分别为:
第一阶段:压缩信息至memory;
第二阶段:编码memory信息;
第三阶段:解压缩信息;
,其中是memory长度。
不变。
适用于所有场景,可以带来一定提升。
暂无。
主要是验证这样训练设置下,memory的有效性,不过改方法应该会增加不少时间复杂度,所以是否值得有待商榷。