Adaptive Attention Span in Transformers
论文地址:
整体思路以及计算方式
本质上是Local Attention,即计算局部注意力,改进点是给每个头一个mask,所以各个头的侧重点不同。
计算方式:
- 给定 
- 计算相似度 
- 计算mask: 
- 计算局部权重: 
- 其余部分相同 
时间复杂度
依然是标准Attention的计算方式,所以时间复杂度为。
训练以及loss
loss增加了的正则项部分:
代码
https://github.com/facebookresearch/adaptive-span
实验以及适用场景
Encoder和Decoder均适用;论文里测试了lm的结果,有一些提升。
细节
暂无。
简评
优点:
- 适用于单向和双向模型; 
- 对每个head使用不同的mask,是一个不错的思路; 
总结:
- 感觉是一个不错的思路,可以尝试复现; 
PreviousFMMformer: Efficient and Flexible Transformer via Decomposed Near-field and Far-field AttentionNextCoLT5: Faster Long-Range Transformers with Conditional Computation
Last updated