Do Transformer Modifications Transfer Across Implementations and Applications?
论文地址:
简评
讨论例如激活函数,Normalization,层数和Embedding的配比以及其他一些实现细节对应Transformer性能的影响,给几个主要结论:
RMS Norm性能最好;
ReGLU激活函数性能最好;
同样参数下,不是层数越多越好,有一个折中点;
总体来说,该论文给出了很多有价值的实验,上述三个点可以考虑复现。
PreviousAccelerating Neural Transformer via an Average Attention NetworkNextObject-Centric Learning with Slot Attention
Last updated