论文地址:
https://arxiv.org/abs/2006.03654arrow-up-right
传统的Attention计算,Q,K\mathbf Q,\mathbf KQ,K可以拆成context和pos部分:
所以Attention Score的计算可以拆成4项:
DeBERTa的计算方式是将上式修改为:
其中:
即在一定范围内由相对位置确定,该范围外为固定值。
Attention Matrix的时间复杂度由n2dn^2dn2d增加为3n2d3n^2d3n2d,其余部分不变。
不变。
https://github.com/microsoft/DeBERTaarrow-up-right
适用于所有场景,论文主要测试了在BERT中的效果。
暂无。
性能很好,但是无法适用于Linear Attention,所以暂时不考虑复现。
Last updated 3 years ago