论文地址:
整体思路以及计算方式
思路比较简洁,对输入部分增加m个mem token,记为xmem∈Rm×d,原始输入记为xseq∈Rn×d,合并后的输入记为xmem+seq=[xmem;xseq]∈R(n+m)×d。
论文一共介绍了三个模型,分别为:
Mem Transformer:
xmem+seq=MHA(xmem+seq,xmem+seq) MemCtrl Transformer:
xmemxseq=MHA(xmem,xmem+seq)=MHA(xmem,xmem+seq) MemBottleNeck Transformer:
xmemxseq=MHA(xmem,xmem+seq)=MHA(xmem,xmem)
时间复杂度
依然是标准Attention的计算方式,所以时间复杂度为O((n+m)2d)。
训练以及loss
不变。
代码
实验以及适用场景
Encoder和Decoder均适用;实验比较全,Encoder, Decoder以及Encoder-Decoder结构均测试过,总体效果积极。
细节
论文中m取的比较小,所以增加的时间并不多。
简评
优点:
总结