论文地址:
https://arxiv.org/abs/2112.07210arrow-up-right
论文没有提新方法,比较了sparse attention和local attention的效果,这里的local attention分为两种:
最后结论如下:
LRA benchmark太简单,结果基本一致;
在pretrain + finetune设置下,简单的local attention比其他花里胡哨的方法都要好;
Blockwise效果比Local更好,并且不重合的效果最好;
不考虑。
无。
只比较了encoder(roberta)场景,在decoder(lm)和encoder-decoder(nmt)上没有进行测试。
结论挺反直觉的,只能用大道至简来形容。
Last updated 2 years ago