UFO-ViT: High Performance Linear Vision Transformer without Softmax
PreviousLinear Complexity Randomized Self-attention MechanismNextXCiT: Cross-Covariance Image Transformers
Last updated
Last updated
论文地址:
依然是利用了linear attention的方式,只不过这里没有过特征变换,计算方式如下:
定义:
线性时间复杂度,依然是。
不变。
非官方实现:
适用于Encoder,Decoder,效果还行,不过感觉可能是由于在Attention和FFN之间加了卷积层的原因。
暂无。
个人感觉如果不加上卷积层,效果不会太好。