ReZero is All You Need Fast Convergence at Large Depth
PreviousNormalize_And_ResidualNextBatch Normalization Biases Residual Blocks Towards the Identity Function in Deep Networks
Last updated
Last updated
论文地址:
作者提出了一种使得深度网络更容易训练的方式,比较新颖的是,该方法没有使用normalize。
该方法非常简单, 作为对比,给出常见一些常见的normalize方式:
Deep Network:
Residual Network:
Deep Network + Norm:
Residual Network + Pre-Norm:
Residual Network + Post-Norm:
ReZero:
注意需要初始化为0。
不考虑。
不变。
适用于所有场景;从实验中可以看出确实提升了网络的收敛速度。
主要就是初始化为0。
第一印象会感觉该方法不会work,但是结果非常反直觉,由于该方法应该会提升不少速度,所以非常值得复现。