Separable Self-attention for Mobile Vision Transformers

论文地址：

整体思路以及计算方式

提出了一种Attention的计算方式，主要思想是将 $Q$ 压缩为一个向量，这里带来的问题是， $K$ 交互的token变成了一个，所以应该会带来一些性能损失，计算公式如下：

$O(nd^2)$ 。

不变。

只适用于Encoder（ $c_s$ 的计算），性能尚可，作者这里考虑的主要是效率，从效率角度来说却是不错。

思路总体来说是很简单的，可以考虑适配到NLP任务中。

Last updated 2 years ago