Supplementary Material Implementation and Experiments for GAU-based Model
Last updated
Last updated
论文地址:
一篇对苏神提出方法的总结,利用2层GAU代替Transformer:
计算方式如下:
给定输入:
线性变换:
计算:
Attention Matrix:
输出:
依然是,但是实际中比Transformer快。
不变。
暂无。
适用于所有场景,论文测了CLUE benchmark,效果还不错。
暂无,基本包含全部细节。
算是一个不错的方法, 把苏神提出的方法实现并改进,值得复现。