Simple Local Attentions Remain Competitive for Long-Context Tasks
PreviousSeparable Self-attention for Mobile Vision TransformersNextYou Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli Sampling
Last updated
Last updated
论文地址:
论文没有提新方法,比较了sparse attention和local attention的效果,这里的local attention分为两种:
最后结论如下:
LRA benchmark太简单,结果基本一致;
在pretrain + finetune设置下,简单的local attention比其他花里胡哨的方法都要好;
Blockwise效果比Local更好,并且不重合的效果最好;
不考虑。
不考虑。
无。
只比较了encoder(roberta)场景,在decoder(lm)和encoder-decoder(nmt)上没有进行测试。
无。
结论挺反直觉的,只能用大道至简来形容。