Nested Hierarchical Transformer: Towards Accurate, Data-Efficient and Interpretable Visual Understanding
PreviousCrossFormer: A Versatile Vision Transformer Hinging on Cross-scale AttentionNextNeighborhood Attention Transformer
Last updated
Last updated
论文地址:
利用分组和分阶段的思想计算Attention:
在每个阶段:
在每个组内计算Attention;
对组内Token做卷积,降低维度;
输出结果;
整体结构如下:
,但是会随着阶段变小。
不变。
测试了CV场景,效果不错。
暂无。
本质上和window attention类似,是一种local的方法。