XCiT: Cross-Covariance Image Transformers
论文地址:
整体思路以及计算方式
输入:
(分组计算)
时间复杂度
假设有个分组,那么时间复杂度为。
训练以及loss
不变。
代码
实验以及适用场景
适用于Encoder,作者进行了视觉任务,效果都不错。
细节
作者在Attention和FFN之间增加了一个模块,带来了不少提升,但是不加这个模块性能一般;另一方面,计算内积的同时增加了分组操作,这部分需要看源码。
简评
这篇思路过于简单,不知道该模块单独使用是否起作用。
PreviousUFO-ViT: High Performance Linear Vision Transformer without SoftmaxNextSimpleTRON: Simple Transformer with O(N) Complexity
Last updated