An Attention Free Transformer
论文地址:
整体思路以及计算方式
提出了一种代替Attention的模块,最一般的计算形式为:
f(Q,K,V)tdf(Q,K,V)t=σq(Qtd)⊙∑s≤tws,tσk(Ksd)∑s≤tws,t(σk(Ksd)⊙Vsd)=σq(Qt)⊙∑s≤tws,tσk(Ks)∑s≤tws,t(σk(Ks)⊙Vs) 该方法和Linear Attention非常接近,不过使用了点乘(求和符号是关于每个特征维度)
时间复杂度
时间复杂度为O(nd),不过由于需要存储ws,t,所以会增加O(n2)空间复杂度。
训练以及loss
不变。
代码
暂无。
实验以及适用场景
实验跑了Encoder和Decoder,效果尚可。
细节
由于点乘的存在,所以不适用于NMT。
简评
非常好的一个思路,之前没有仔细关注,最主要的创新点是增加了ws,t,可以增加模型表达能力。