论文地址:
整体思路以及计算方式
Transformer模块分为两部分:
Token Mixer部分是可替换的,MLP Mixer就是一个例子,但是只能处理定长,HyperMixer就是解决这点,整体如下:
输入:X∈Rn×d
M=XW1∈Rn×d1
Y=f(M⊤X)∈Rd1×d
O=MY∈Rn×d
时间复杂度
O(nd2)。
训练以及loss
不变。
代码
实验以及适用场景
Encoder情形非常容易实现,Decoder情形需要研究一下。
细节
这种形式的TokenMixer和Linear Attention非常相似。
简评
思路非常好,可以说揭露了问题的本质,可以考虑复现。