Skip-Attention: Improving Vision Transformers by Paying Less Attention
论文地址:
整体思路以及计算方式
指出Vit中很多Attention是冗余的,可以利用前几层的Attention结果加以简单的变换取代部分MHA,作者选择了中间替换中间几层的MHA,在很多任务上都能提升性能。
计算公式如下:
图示:
简评
简单明了的一个思路。
Last updated
论文地址:
指出Vit中很多Attention是冗余的,可以利用前几层的Attention结果加以简单的变换取代部分MHA,作者选择了中间替换中间几层的MHA,在很多任务上都能提升性能。
计算公式如下:
图示:
简单明了的一个思路。
Last updated