UFO-ViT: High Performance Linear Vision Transformer without Softmax
论文地址:
整体思路以及计算方式
依然是利用了linear attention的方式,只不过这里没有过特征变换,计算方式如下:
定义:
时间复杂度
线性时间复杂度,依然是。
训练以及loss
不变。
代码
非官方实现:
实验以及适用场景
适用于Encoder,Decoder,效果还行,不过感觉可能是由于在Attention和FFN之间加了卷积层的原因。
细节
暂无。
简评
个人感觉如果不加上卷积层,效果不会太好。
PreviousLinear Complexity Randomized Self-attention MechanismNextXCiT: Cross-Covariance Image Transformers
Last updated