HyperMixer An MLP-based Green AI Alternative to Transformers

论文地址:

整体思路以及计算方式

Transformer模块分为两部分:

  • MHA作为Token Mixer;

  • FFN作为Feature Mixer;

Token Mixer部分是可替换的,MLP Mixer就是一个例子,但是只能处理定长,HyperMixer就是解决这点,整体如下:

  • 输入:XRn×d\mathbf X\in \mathbb R^{n\times d}

  • M=XW1Rn×d1\mathbf M =\mathbf X\mathbf W_1\in \mathbb R^{n\times d_1}

  • Y=f(MX)Rd1×dY= f(\mathbf M^{\top} \mathbf X)\in \mathbb R^{d_1\times d}

  • O=MYRn×d\mathbf O=\mathbf M\mathbf Y\in \mathbb R^{n\times d}

时间复杂度

O(nd2)O(n d^2)

训练以及loss

不变。

代码

实验以及适用场景

Encoder情形非常容易实现,Decoder情形需要研究一下。

细节

这种形式的TokenMixer和Linear Attention非常相似。

简评

思路非常好,可以说揭露了问题的本质,可以考虑复现。

Last updated