Supplementary Material Implementation and Experiments for GAU-based Model
论文地址:
整体思路以及计算方式
一篇对苏神提出方法的总结,利用2层GAU代替Transformer:
计算方式如下:
给定输入:X∈Rn×d
线性变换:Z=XWZ∈Rn×d1,U=XWU∈Rn×d1,V=XWV∈Rn×d2
计算Q,K:Q=Z+bQ+RoPE∈Rn×d2,K=Z+bK+RoPE∈Rn×d2
Attention Matrix:A=Softmax(d2log512nQK⊤)∈Rn×n
输出:O=[U⊙(AV)]WO∈Rn×d
时间复杂度
依然是O(n2),但是实际中比Transformer快。
训练以及loss
不变。
代码
暂无。
实验以及适用场景
适用于所有场景,论文测了CLUE benchmark,效果还不错。
细节
暂无,基本包含全部细节。
简评
算是一个不错的方法, 把苏神提出的方法实现并改进,值得复现。