Pay Attention to MLPs
论文地址:
整体思路以及计算方式
该论文主要讨论Attention的必要性,提出了gMLP block,整体思路如下:
SGU有如下几个版本:
最后一个版本效果最好。
时间复杂度
训练以及loss
不变。
代码
实验以及适用场景
细节
简评
一个非常不错的思路,可以看到Attention在许多任务中不是必须的;不过该模块缺乏Token之间的交互,所以应该替换FFN更合适,可以进行这方面的实验。
PreviousSimple Recurrence Improves Masked Language ModelsNextS2-MLP Spatial-Shift MLP Architecture for Vision
Last updated