相同点:

  1. 都可以缓解 ICS 的问题
  2. 遵循相同的大框架

区别:

  1. LN 与 Batch size 无关,但是 BN 与 Batch size 有关
  2. LN 适用于 RNN,BN 不行
  3. BNLN 在测试的时候快,因为不需要计算 mean 和 variance,直接用在训练阶段得到的无偏估计就行