Memformer The Memory-Augmented Transformer

论文地址:

整体思路以及计算方式

Transformer + 循环,论文只使用在Encoder-Decoder结构中:

时间复杂度

训练以及loss

引入MRBP的训练方式,具体见论文。

代码

实验以及适用场景

单向双向模型均适用;论文里只测试了lm(单向模型),效果有所提升。

细节

简评

总结:

  • 本质上就是RNN,不会进行复现;

Last updated