Last updated 1 year ago
论文地址:
https://arxiv.org/abs/2301.02240
指出Vit中很多Attention是冗余的,可以利用前几层的Attention结果加以简单的变换取代部分MHA,作者选择了中间替换中间几层的MHA,在很多任务上都能提升性能。
计算公式如下:
图示:
简单明了的一个思路。