Nested Hierarchical Transformer: Towards Accurate, Data-Efficient and Interpretable Visual Understanding

论文地址:

整体思路以及计算方式

利用分组和分阶段的思想计算Attention:

  • 在每个阶段:

    • 在每个组内计算Attention;

    • 对组内Token做卷积,降低维度;

  • 输出结果;

整体结构如下:

时间复杂度

训练以及loss

不变。

代码

实验以及适用场景

测试了CV场景,效果不错。

细节

暂无。

简评

本质上和window attention类似,是一种local的方法。

Last updated