Accelerating Neural Transformer via an Average Attention Network
Last updated
Last updated
论文地址:
参考资料:
替换Deocder中self Attention为AAN,计算方式如下:
循环实现的时间复杂度为,并行实现的时间复杂度为。
没有变化。
适用于Causal Attention,可以替换LM中的Attention;论文测试了NMT实验,取得了相当的效果,但是没有速度提升。
暂无。
本质上和Attention类似,只不过假定等权重,训练时不能提速,解码时能提速;
可以在lm上测试;