Simple Recurrence Improves Masked Language Models

论文地址：

整体思路以及计算方式

将Transformer中的FFN模块换成RNN，最终带来了提升，计算公式如下：

输入 $\mathbf X\in \mathbb R^{n\times d}$
隐藏状态 $\mathbf X_1= \mathbf X\mathbf W_1\in \mathbb R^{n\times d_1},\mathbf X_2= \mathbf X\mathbf W_2\in \mathbb R^{n\times d_1}$
计算 $\mathbf C\in \mathbb R^{n\times d_1}$
- $\mathbf c[0]=0$
- $\mathbf c[i]=\mathrm{Swish}\left(\mathbf c[i-1]- \mathbf x_1[i]\right)+\mathbf x_1[i]$
${\mathbf H}=\left(\left(\mathbf {C}+\mathbf {b}_{c}\right) \odot \sigma\left(\mathbf {X}_{2}+\mathbf {b}_{\sigma}\right)\right)\mathbf {W}_{3}+\mathbf {b}_{3} \in \mathbb R^{n\times d}$

改进：

由于循环太慢，另一种计算方式是对 $k$ 个位置同时计算， $k=1$ 退化到前一种情形：

$\mathbf c[0:k]=0$
$\mathbf c[ik:(i+1)k]=\mathrm{Swish}\left(\mathbf c[(i-1)k:ik]- \mathbf x_1[ik:(i+1)k]\right)+\mathbf x_1[ik:(i+1)k]$

总时间为 $O(n dd_1)$ ，但是由于是RNN，实际上会慢很多，作者给出的数字是 $k=1$ 时耗时为140%， $k=2$ 时耗时为120%。

不变。

暂无。

适用于所有场景，作者测试了BERT(Encoder)和GLUE任务，带来了一定的提升，注意这里是时间换性能，所以是否值得需要视场景而定；Decoder的结果作者没有测试，后续可以尝试一下。

暂无。

思路很简单的一篇论文，但是可以带来如下思考：

Last updated 3 years ago