Memformer The Memory-Augmented Transformer
论文地址:
整体思路以及计算方式
Transformer + 循环,论文只使用在Encoder-Decoder结构中:
时间复杂度
训练以及loss
引入MRBP的训练方式,具体见论文。
代码
实验以及适用场景
单向双向模型均适用;论文里只测试了lm(单向模型),效果有所提升。
细节
简评
总结:
本质上就是RNN,不会进行复现;
Last updated