Last updated 2 years ago
论文地址:
Transformer + 循环,论文只使用在Encoder-Decoder结构中:
给定循环次数TTT,输入x∈Rn×d\mathbf x\in \mathbb R^{n\times d}x∈Rn×d
初始化m∈Rm×d\mathbf m\in \mathbb R^{m\times d}m∈Rm×d
对于x\mathbf xx,得到输出Encoder(x,m)∈Rn×d\mathrm{Encoder}(\mathbf x,\mathbf m)\in \mathbb R^{n\times d}Encoder(x,m)∈Rn×d
for i = 1,...,T\text{for i = 1,...,T}for i = 1,...,T:
m=f(MHA(m,x))∈Rm×d\mathbf m= f(\mathrm{MHA}(\mathbf m,\mathbf x)) \in \mathbb R^{m\times d}m=f(MHA(m,x))∈Rm×d
依然是标准Attention的计算方式,但这里涉及到循环,所以时间复杂度为O(nmTd)O(nmTd)O(nmTd)。
引入MRBP的训练方式,具体见论文。
单向双向模型均适用;论文里只测试了lm(单向模型),效果有所提升。
mmm不在计算图内。
总结:
本质上就是RNN,不会进行复现;