Last updated 2 years ago
论文地址:
利用Local Attention + Global Attention减少运算量:
Local Attention:
每个token只和附近2r+12r+12r+1个token交互。
Global Attention:
将nnn个token按每组lll个划分,组内token取均值,这样一共得到n/ln/ln/l个token,每个token和这n/ln/ln/l个token交互。
时间复杂度为O(n(2r+1)d+n2/ld)O(n(2r+1)d + n^2 /l d)O(n(2r+1)d+n2/ld)。
不变。
论文测试了encoder-decoder结构。
因为global token是通过求均值得到的,所以单向模型时实现起来较为复杂。
很简单并且优雅的方式,可以考虑复现。