Improve Transformer Models with Better Relative Position Embeddings
论文地址:
整体思路以及计算方式
给出引入相对位置编码的几种方案。
方案1:
eijaij=dz(xiWQ)(xjWK)⊤aij=w∣j−i∣ 方案2:
eijaij=dz(xiWQ)(xjWK)⊤aij=wj−i 方案3:
方案4:
eij=dz(xiWQ+aij)(xjWK+aij)⊤−⟨aij,aij⟩ 时间复杂度
会增加一定的时间复杂度,但关于序列长度任然是二次。
训练以及loss
不变。
代码
没有,但实现起来很简单。
实验以及适用场景
总体来说效果一般。
细节
暂无。
简评
对性能提升不多,所以暂时不考虑复现。