When Attention Meets Fast Recurrence: Training Language Models with Reduced Compute
论文地址:
整体思路以及计算方式
将SRU中的全连接层替换成MHA,增加模型表达性,首先回顾SRU:
U⊤=WW′W′′X⊤ 其中U∈RL×3×d,X∈RL×d.
然后利用递推式计算:
f[t]r[t]c[t]h[t]=σ(U[t,0]+v⊙c[t−1]+b)=σ(U[t,1]+v′⊙c[t−1]+b′)=f[t]⊙c[t−1]+(1−f[t])⊙U[t,2]=r[t]⊙c[t]+(1−r[t])⊙x[t]. 这里的改进是,将U部分替换为MHA:
U⊤A⊤QKV=WoLayernorm(Q+α⋅A)=softmax(d′Q⊤K)V⊤=WqX⊤=WkQ=WvQ 代码
细节
作者测试了每几层增加Attention的效果,最后的结论是,只要增加一层Attention,就能比纯SRU的效果好很多。
简评
不错的工作,最后的结论也有启发意义。