深度学习之优化详解：batch normalization-浅色年华-ChinaUnix博客

Chinaunix首页 | 论坛 | 博客

浅色年华的ChinaUnix博客

首页　| 　博文目录　| 　关于我

博客访问： 407480
博文数量： 273
博客积分： 0
博客等级：民兵
技术积分： 1430
用户组：普通用户
注册时间： 2018-02-02 15:57

文章分类

全部博文（273）

未分配的博文（273）

文章存档

2018年（273）

我的朋友

最近访客

推荐博文

相关博文

深度学习之优化详解：batch normalization

分类： Python/Ruby

2018-07-27 15:39:23

认识上图这些人吗？这些人把自己叫做“The Myth Busters”，为什么？在他们的启发下，我们才会在Paperspace做类似的事情。我们要解决是Batch Normalization（BN）是否确实解决了Internal Covariate Shift的问题。虽然Batch Normalization已经存在了几年，并且已经成为深度神经网络的主要内容，但它仍然是深度学习中最容易被误解的概念之一。

Batch Normalization真的解决了Internal Covariate Shift问题了吗？它是用来做什么的？你所学的深度学习是真的吗？我们来看看吧！

在开始之前

我们曾经讨论过：

1、如何利用随机梯度下降来解决深度学习中局部极小值和鞍点的问题。

2、Momentum（动量）和Adam（自适应矩估计）等优化算法如何增强梯度下降以解决优化曲面中的曲率问题。

3、如何使用不同的激活函数来解决梯度消失问题。

为了有效地学习神经网络，神经网络的每一层分布都应该：均值为0、始终保持相同的分布；第二个条件意味着通过批梯度下降输入到网路层的数据分布不应该变化太多，并且随着训练的进行它应该保持不变，而不是每一层的分布都在发生变化。

Internal Covariate Shift

Batch Normalization：通过减少Internal Covariate Shift来加快深度网络训练，其前提是解决一个称为Internal Covariate Shift的问题。

就像我们现在所称的那样，Internal Covariate Shift是指在训练过程中，隐层的输入分布老是变来变去，Internal指的是深层网络的隐层，是发生在网络内部的事情，Covariate指的是输入分布被变化的权重参数化，Shift指分布正在发生变化。

所以，让我们试着观察这件事情怎样发生的。再次，尽可能想象一下最简单的神经网络之一：线性堆叠的神经元，这样你也可以通过替换神经元网络层来扩展类比。

34a5ed21cbe254b865e5228eabd9aa5a8f1e9bad

假设我们正在优化损失函数L,神经元d权重的更新规则是：

7d15d39427c3302e408b06e1652cf66a17b5d11d

我们可以看到权重d的梯度取决于c的输出，对于神经网络中的任何层也是如此。神经元的权重梯度取决于它的输入或者下一层的输出。

阅读(1575) | 评论(0) | 转发(0) |

0

上一篇：Java多线程打辅助的三个小伙子

下一篇：阿里资深技术专家：谁说程序员是吃“青春饭”的？

给主人留下些什么吧！~~

关于我们 | 关于IT168 | 联系方式 | 广告合作 | 法律声明 | 免费注册

Copyright 2001-2010 ChinaUnix.net All Rights Reserved 北京皓辰网域网络信息技术有限公司. 版权所有

感谢所有关心和支持过ChinaUnix的朋友们