Supplementary Material Implementation and Experiments for GAU-based Model

论文地址:

整体思路以及计算方式

一篇对苏神提出方法的总结,利用2层GAU代替Transformer:

计算方式如下:

  • 给定输入:XRn×d\mathbf X\in \mathbb R^{n\times d}

  • 线性变换:Z=XWZRn×d1,U=XWURn×d1,V=XWVRn×d2\mathbf Z=\mathbf X\mathbf W_Z\in \mathbb R^{n\times d_1},\mathbf U=\mathbf X\mathbf W_U \in \mathbb R^{n\times d_1},\mathbf V=\mathbf X\mathbf W_V \in \mathbb R^{n\times d_2}

  • 计算Q,K\mathbf Q ,\mathbf KQ=Z+bQ+RoPERn×d2,K=Z+bK+RoPERn×d2\mathbf Q=\mathbf Z + \mathbf b_Q + \mathrm{RoPE}\in \mathbb R^{n\times d_2},\mathbf K =\mathbf Z+\mathbf b_K + \mathrm{RoPE}\in \mathbb R^{n\times d_2}

  • Attention Matrix:A=Softmax(log512nd2QK)Rn×n\mathbf A=\mathrm{Softmax}\left(\frac{\log_{512}n}{\sqrt{d_2}}\mathbf Q \mathbf K^{\top}\right)\in \mathbb R^{n\times n}

  • 输出:O=[U(AV)]WORn×d\mathbf O=[\mathbf U\odot (\mathbf A \mathbf V)]\mathbf W_O\in \mathbb R^{n\times d}

时间复杂度

依然是O(n2)O(n^2),但是实际中比Transformer快。

训练以及loss

不变。

代码

暂无。

实验以及适用场景

适用于所有场景,论文测了CLUE benchmark,效果还不错。

细节

暂无,基本包含全部细节。

简评

算是一个不错的方法, 把苏神提出的方法实现并改进,值得复现。

Last updated