RealFormer Transformer Likes Residual Attention

论文地址:

整体思路以及计算方式

对残差部分进行了修改,将前一层的Attention Score传到下一层:

  • O=Softmax(QK+S)V\mathbf O=\mathrm{Softmax}(\mathbf Q\mathbf K^{\top} + \mathbf S)\mathbf V

  • S=QK+S\mathbf S=\mathbf Q\mathbf K^{\top} +\mathbf S

时间复杂度

依然是O(n2d)O(n^2d),但是系数上有差别,总体是增加了。

训练以及loss

不变。

代码

实验以及适用场景

作者在Bert上测试了性能,比较了Post-LN, Pre-LN以及RealFormer(论文提出的方法)的性能,总体来说,RealFormer的性能更好。

细节

暂无。

简评

感觉速度上会慢一点,性能提升不算很明显。

Last updated