Last updated 2 years ago
论文地址:
利用Local Attention + Low-rank Attention逼近Softmax Attention,其中Low-rank Attention就是常用的Linear Attention。
简单常规的思路,类似的论文也不少了。