DeBERTa Decoding-enhanced BERT with Disentangled Attention
论文地址:
整体思路以及计算方式
传统的Attention计算,Q,K可以拆成context和pos部分:
QcKcQrKr=HWq,c=HWk,c=PWq,r=PWk,r 所以Attention Score的计算可以拆成4项:
A~i,j=QicKjc⊤+QicKjr⊤+KjcQjr⊤+KirQir⊤ DeBERTa的计算方式是将上式修改为:
A~i,j=(a) content-to-content QicKjc⊤+(b) content-to-position QicKδ(i,j)r⊤+(c) position-to-content KjcQδ(j,i)r⊤ 其中:
δ(i,j)=⎩⎨⎧02k−1i−j+k for for others. i−j≤−ki−j≥k 即在一定范围内由相对位置确定,该范围外为固定值。
时间复杂度
Attention Matrix的时间复杂度由n2d增加为3n2d,其余部分不变。
训练以及loss
不变。
代码
实验以及适用场景
适用于所有场景,论文主要测试了在BERT中的效果。
细节
暂无。
简评
性能很好,但是无法适用于Linear Attention,所以暂时不考虑复现。