Pay Attention to MLPs
PreviousSimple Recurrence Improves Masked Language ModelsNextS2-MLP Spatial-Shift MLP Architecture for Vision
Last updated
Last updated
论文地址:
该论文主要讨论Attention的必要性,提出了gMLP block,整体思路如下:
输入:
SGU有如下几个版本:
其中表示:
最后一个版本效果最好。
不变。
一个非常不错的思路,可以看到Attention在许多任务中不是必须的;不过该模块缺乏Token之间的交互,所以应该替换FFN更合适,可以进行这方面的实验。
。
进行了Encoder任务,在视觉任务上表现不错,在MLM上性能一般,不过在中添加Attention可以大幅提升性能(aMLP版本)。
模块本质上是一个,而aMLP对应的则和FLASH模型非常相似(可以发现本文的一作也是FLASH的作者之一)。