GLU Variants Improve Transformer
论文地址:
整体思路以及计算方式
FFN的替代品,首先是GLU模块:
GLU(x,W,V,b,c)=f(xW+b)⊙(xV+c) 其中f是任意激活函数。
定义新的FFN模块:
FFNGLU(x,W,V,W2)=(f(xW)⊙xV)W2 时间复杂度
假设:
x∈Rn×d1
W,V∈Rd1×d2,W2∈Rd2×d1
所以时间复杂度为:
O(nd1d2) 这里引入的参数数量为3d1d2,传统FFN的参数数量为8d12,要对标参数数量,取
d2=38d1=32×4d1 训练以及loss
不变。
代码
无,很简单,直接实现即可。
实验以及适用场景
由于是FFN的替代,所以适用于所有场景;作者测试了GLUE任务,效果相当不错。
细节
暂无。
简评
总结:
FFN的简单改进,效果不错,速度如何需要进行测试;