Last updated 2 years ago
论文地址:
本质上是Local Attention,即计算局部注意力,改进点是给每个头一个mask,所以各个头的侧重点不同。
计算方式:
给定q,k,v∈Rn×dq, k, v\in \mathbb R^{n\times d}q,k,v∈Rn×d
计算相似度str=qt⊤kr∈Rs_{tr}= q_t^{\top} k_r \in \mathbb Rstr=qt⊤kr∈R
计算mask:
计算局部权重:
其余部分相同
依然是标准Attention的计算方式,所以时间复杂度为O(n2d)O(n^2 d)O(n2d)。
loss增加了zzz的正则项部分:
Encoder和Decoder均适用;论文里测试了lm的结果,有一些提升。
暂无。
优点:
适用于单向和双向模型;
对每个head使用不同的mask,是一个不错的思路;
总结:
感觉是一个不错的思路,可以尝试复现;