Swin Transformer V2: Scaling Up Capacity and Resolution

论文地址:

整体思路以及计算方式

对Swin-Transformer做了一些工程上的改进:

  1. PreNorm换成PostNorm;

  2. q,k\mathbf q, \mathbf k做内积之前先过了归一化:q=q/q2,k=k/k2\mathbf q= \mathbf q/\|\mathbf q \|_2, \mathbf k= \mathbf k/\|\mathbf k \|_2

  3. 增加相对位置编码:f(log(ij))f(\log (i-j))

图示:

时间复杂度

不考虑。

训练以及loss

不考虑。

代码

细节

细节挺多的,复现的时候细读。

简评

做了一些工程上的改进,代码库中也有cuda相关代码,值得复现。

Last updated