论文阅读《Batch Normalization-Accelerating Deep Network Training by Reducing Internal Covariate Shif》

重温经典...

Posted by tianchen on October 28, 2019

《Batch Normalization-Accelerating Deep Network Training by Reducing Internal Covariate Shif》

  • NN训练的非线性性造成层间数据分布不均匀,或者说是Internal Covariance Shift
    • 前层的一些小变化积累到后面会很大
  • 对每个Mini-Batch做Norm
  • 可容忍更高的LR以及初始化
  • 也可以看做是一种regularizer,从而可以不用使用Dropout
  • 14x Training Steps加速

  • 当年relu+small lr+careful initial
    • 来避免gradient vanish(也就是saturation的问题)

又是一篇看了一般感觉没什么卵用的论文阅读呢🙌