《Batch Normalization-Accelerating Deep Network Training by Reducing Internal Covariate Shif》
- NN训练的非线性性造成层间数据分布不均匀,或者说是Internal Covariance Shift
- 前层的一些小变化积累到后面会很大
- 对每个Mini-Batch做Norm
- 可容忍更高的LR以及初始化
- 也可以看做是一种regularizer,从而可以不用使用Dropout
-
14x Training Steps加速
- 当年relu+small lr+careful initial
- 来避免gradient vanish(也就是saturation的问题)
又是一篇看了一般感觉没什么卵用的论文阅读呢🙌