Last updated 2 years ago
论文地址:
FFN的替代品,首先是GLU模块:
其中fff是任意激活函数。
定义新的FFN模块:
假设:
x∈Rn×d1\mathbf x\in \mathbb R^{n\times d_1}x∈Rn×d1
W,V∈Rd1×d2,W2∈Rd2×d1\mathbf W,\mathbf V\in \mathbb R^{d_1\times d_2},\mathbf W_2\in \mathbb R^{d_2\times d_1}W,V∈Rd1×d2,W2∈Rd2×d1
所以时间复杂度为:
这里引入的参数数量为3d1d23d_1d_23d1d2,传统FFN的参数数量为8d128d_1^28d12,要对标参数数量,取
不变。
无,很简单,直接实现即可。
由于是FFN的替代,所以适用于所有场景;作者测试了GLUE任务,效果相当不错。
暂无。
总结:
FFN的简单改进,效果不错,速度如何需要进行测试;
值得复现;