Accelerating Neural Transformer via an Average Attention Network

论文地址：

参考资料：

整体思路以及计算方式

替换Deocder中self Attention为AAN，计算方式如下：

$\mathbf y_j\in \mathbb R^{ d_1}$
$\mathbf {g}_{j}=\operatorname{FFN}\left(\frac{1}{j} \sum_{k=1}^{j} \mathbf {y}_{k}\right)\in \mathbb R^{d_2}$
${i}_{j}, {f}_{j}=\sigma\left(W\left[\mathbf {y}_{j} ; \mathbf {g}_{j}\right]\right)\in \mathbb R$
$\tilde{\mathbf {h}}_{j}={i}_{j} \odot \mathbf {y}_{j}+{f}_{j} \odot \mathbf {g}_{j} \in \mathbb R^{ d_1}$
$\mathbf {h}_{j}=\operatorname{LayerNorm}\left(\mathbf {y}_{j}+\tilde{\mathbf {h}}_{j}\right)\in \mathbb R^{d_1}$

循环实现的时间复杂度为 $O(nd_1 d_2)$ ，并行实现的时间复杂度为 $O(n^2d_1 + nd_1 d_2)$ 。

没有变化。

适用于Causal Attention，可以替换LM中的Attention；论文测试了NMT实验，取得了相当的效果，但是没有速度提升。

暂无。

Last updated 3 years ago