UFO-ViT: High Performance Linear Vision Transformer without Softmax

论文地址：

整体思路以及计算方式

依然是利用了linear attention的方式，只不过这里 $Q,K$ 没有过特征变换 $\phi$ ，计算方式如下：

线性时间复杂度，依然是 $O(nd^2)$ 。

不变。

非官方实现：

适用于Encoder，Decoder，效果还行，不过感觉可能是由于在Attention和FFN之间加了卷积层的原因。

暂无。

个人感觉如果不加上卷积层，效果不会太好。

Last updated 2 years ago