Adaptive Attention Span in Transformers
论文地址:
整体思路以及计算方式
本质上是Local Attention,即计算局部注意力,改进点是给每个头一个mask,所以各个头的侧重点不同。
计算方式:
给定
计算相似度
计算mask:
计算局部权重:
其余部分相同
时间复杂度
依然是标准Attention的计算方式,所以时间复杂度为。
训练以及loss
loss增加了的正则项部分:
代码
https://github.com/facebookresearch/adaptive-span
实验以及适用场景
Encoder和Decoder均适用;论文里测试了lm的结果,有一些提升。
细节
暂无。
简评
优点:
适用于单向和双向模型;
对每个head使用不同的mask,是一个不错的思路;
总结:
感觉是一个不错的思路,可以尝试复现;
PreviousFMMformer: Efficient and Flexible Transformer via Decomposed Near-field and Far-field AttentionNextCoLT5: Faster Long-Range Transformers with Conditional Computation
Last updated