Separable Self-attention for Mobile Vision Transformers
论文地址:
整体思路以及计算方式
提出了一种Attention的计算方式,主要思想是将压缩为一个向量,这里带来的问题是,交互的token变成了一个,所以应该会带来一些性能损失,计算公式如下:
输入:
时间复杂度
。
训练以及loss
不变。
代码
实验以及适用场景
只适用于Encoder(的计算),性能尚可,作者这里考虑的主要是效率,从效率角度来说却是不错。
简评
思路总体来说是很简单的,可以考虑适配到NLP任务中。
PreviousMemory-efficient Transformers via Top-k AttentionNextSimple Local Attentions Remain Competitive for Long-Context Tasks
Last updated