Last updated 2 years ago
论文地址:
这篇文章的方法看似很简单,带背后带来的信息其实非常多:
只要一个模型有TokenMixer和FeatureMixer两部分,就能带来不错的效果;
TokenMixer部分作者选择的是pooling;
因为Tokenmixer使用pooling操作,所以总时间复杂度应该为O(nd2)O(nd^2)O(nd2)。
不变。
目前的由于使用了pooling,所以只适用于Encoder,但是将其修改,可以适配到Deocder中。
暂无。
大道至简,这篇文章指出来一个本质问题,从这点来说比其提供的方法更重要。