Neighborhood Attention Transformer
论文地址:
整体思路以及计算方式
依然是利用Window(Local) Attention的思路,区别在于Window的中心为Query:
时间复杂度
,其中为窗口内token的数量。
训练以及loss
不变。
代码
实验以及适用场景
适用于所有CV场景,也可以尝试在nlp中。
细节
暂无。
简评
思路非常简单,难点在于工程实现。
PreviousNested Hierarchical Transformer: Towards Accurate, Data-Efficient and Interpretable Visual UnderstandingNextFMMformer: Efficient and Flexible Transformer via Decomposed Near-field and Far-field Attention
Last updated