Last updated 2 years ago
论文地址:
对残差部分进行了修改,将前一层的Attention Score传到下一层:
O=Softmax(QK⊤+S)V\mathbf O=\mathrm{Softmax}(\mathbf Q\mathbf K^{\top} + \mathbf S)\mathbf VO=Softmax(QK⊤+S)V
S=QK⊤+S\mathbf S=\mathbf Q\mathbf K^{\top} +\mathbf SS=QK⊤+S
依然是O(n2d)O(n^2d)O(n2d),但是系数上有差别,总体是增加了。
不变。
作者在Bert上测试了性能,比较了Post-LN, Pre-LN以及RealFormer(论文提出的方法)的性能,总体来说,RealFormer的性能更好。
暂无。
感觉速度上会慢一点,性能提升不算很明显。