论文地址:
https://arxiv.org/abs/2102.12459arrow-up-right
将SRU中的全连接层替换成MHA,增加模型表达性,首先回顾SRU:
其中U∈RL×3×d,X∈RL×d.\mathbf{U} \in \mathbb{R}^{L \times 3 \times d}, \mathbf{X} \in \mathbb{R}^{L \times d}.U∈RL×3×d,X∈RL×d.
然后利用递推式计算:
这里的改进是,将U\mathbf UU部分替换为MHA:
https://github.com/asappresearch/sruarrow-up-right
作者测试了每几层增加Attention的效果,最后的结论是,只要增加一层Attention,就能比纯SRU的效果好很多。
不错的工作,最后的结论也有启发意义。
Last updated 2 years ago