论文地址:
https://arxiv.org/abs/2110.02453arrow-up-right
本文首先利用了Linear Attention,然后对Vit中的Attention提出局部性假设:每个qqq交互的kkk限制在某个范围内,利用动态规划算法计算该范围内的结果,然后计算加权和,整体计算式如下:
这里的下标ijijij表示第iii行,第jjj个patch,Nr(i,j)\mathcal{N}_{r}(i, j)Nr(i,j)表示:
动态规划算法见论文。
利用动态规划算法,时间复杂度可达O(nR)O(nR)O(nR)。
不变。
暂无。
该Attention基于VIT设计,所以实验也是CV相关,总体效果还可以。
反向传播也使用了DP。
总体来说是个挺巧妙的算法,而且也可以向nlp任务扩展。
Last updated 2 years ago