MetaFormer is Actually What You Need for Vision
论文地址:
整体思路以及计算方式
这篇文章的方法看似很简单,带背后带来的信息其实非常多:
只要一个模型有TokenMixer和FeatureMixer两部分,就能带来不错的效果;
TokenMixer部分作者选择的是pooling;
时间复杂度
因为Tokenmixer使用pooling操作,所以总时间复杂度应该为。
训练以及loss
不变。
代码
实验以及适用场景
目前的由于使用了pooling,所以只适用于Encoder,但是将其修改,可以适配到Deocder中。
细节
暂无。
简评
大道至简,这篇文章指出来一个本质问题,从这点来说比其提供的方法更重要。
PreviousSupplementary Material Implementation and Experiments for GAU-based ModelNextDeeper vs Wider A Revisit of Transformer Configuration
Last updated