论文地址:
https://arxiv.org/abs/2104.08698arrow-up-right
作者提出加性位置编码会增加矩阵的秩,具体来说,定义
那么
作者默认秩越大,性能越好,于是定义了两种位置编码方式:
其中SSS为映射函数,S\mathbf SS为可学习的矩阵。
理论复杂度不变,实际增加的计算开销微乎其微。
不变。
暂无,但是很好实现。
适用于所有场景,可以带来一定提升,但是并不明显。
暂无。
个人感觉,本文的先验假设:过Softmax之前的矩阵秩越大,模型性能就越好这点站不住脚,因为即使是秩很小的矩阵,过完Softmax之后一般秩也会增加。
Last updated 3 years ago