Pay Attention to MLPs

论文地址:

整体思路以及计算方式

该论文主要讨论Attention的必要性,提出了gMLP block,整体思路如下:

SGU有如下几个版本:

最后一个版本效果最好。

时间复杂度

训练以及loss

不变。

代码

实验以及适用场景

细节

简评

一个非常不错的思路,可以看到Attention在许多任务中不是必须的;不过该模块缺乏Token之间的交互,所以应该替换FFN更合适,可以进行这方面的实验。

Last updated