CrossFormer: A Versatile Vision Transformer Hinging on Cross-scale Attention
PreviousLocalGlobalNextNested Hierarchical Transformer: Towards Accurate, Data-Efficient and Interpretable Visual Understanding
Last updated
Last updated
论文地址:
利用LocalGlobal的思想降低Attention计算量,并且增加了动态相对位置编码,整体结构如下:
,其中为常数。
不变。
论文测试了Encoder常见,在Decoder场景中如何使用需要研究一下。
实现的挺巧妙的,利用Reshape即可,具体可以参考代码部分。
该工作简洁,有效,非常赏心悦目,值得复现。