Memformer The Memory-Augmented Transformer
Last updated
Last updated
论文地址:
Transformer + 循环,论文只使用在Encoder-Decoder结构中:
给定循环次数,输入
初始化
对于,得到输出
:
依然是标准Attention的计算方式,但这里涉及到循环,所以时间复杂度为。
引入MRBP的训练方式,具体见论文。
单向双向模型均适用;论文里只测试了lm(单向模型),效果有所提升。
总结:
本质上就是RNN,不会进行复现;
不在计算图内。