RealFormer Transformer Likes Residual Attention
论文地址:
整体思路以及计算方式
对残差部分进行了修改,将前一层的Attention Score传到下一层:
时间复杂度
依然是,但是系数上有差别,总体是增加了。
训练以及loss
不变。
代码
实验以及适用场景
作者在Bert上测试了性能,比较了Post-LN, Pre-LN以及RealFormer(论文提出的方法)的性能,总体来说,RealFormer的性能更好。
细节
暂无。
简评
感觉速度上会慢一点,性能提升不算很明显。
PreviousImproving Deep Transformer with Depth-Scaled Initialization and Merged AttentionNextOn Layer Normalizations and Residual Connections in Transformers
Last updated