Accelerating Neural Transformer via an Average Attention Network
论文地址:
参考资料:
整体思路以及计算方式
替换Deocder中self Attention为AAN,计算方式如下:
yj∈Rd1
gj=FFN(j1∑k=1jyk)∈Rd2
ij,fj=σ(W[yj;gj])∈R
h~j=ij⊙yj+fj⊙gj∈Rd1
hj=LayerNorm(yj+h~j)∈Rd1
时间复杂度
循环实现的时间复杂度为O(nd1d2),并行实现的时间复杂度为O(n2d1+nd1d2)。
训练以及loss
没有变化。
代码
实验以及适用场景
适用于Causal Attention,可以替换LM中的Attention;论文测试了NMT实验,取得了相当的效果,但是没有速度提升。
细节
暂无。
简评
本质上和Attention类似,只不过假定等权重,训练时不能提速,解码时能提速;