Dropout[通俗易懂]

Dropout[通俗易懂]参数正则化方法Dropout受人类繁衍后代时男女各一半基因进行组合产生下一代的启发,论文("Dropout:ASimpleWaytoPreventNeuralNetwor

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

参数正则化方法 – Dropout

受人类繁衍后代时男女各一半基因进行组合产生下一代的启发,论文(Dropout: A Simple Way to Prevent Neural Networks from Overfitting)提出了Dropout。

Dropout是一种在深度学习环境中应用的正规化手段。它是这样运作的:在一次循环中我们先随机选择神经层中的一些单元并将其临时隐藏,然后再进行该次循环中神经网络的训练和优化过程。在下一次循环中,我们又将隐藏另外一些神经元,如此直至训练结束。
在训练时,每个神经单元以概率p被保留(dropout丢弃率为1-p);在测试阶段,每个神经单元都是存在的,权重参数w要乘以p,成为:pw。测试时需要乘上p的原因:考虑第一隐藏层的一个神经元在dropout之前的输出是x,那么dropout之后的期望值是\(E=px + (1-p)0\) ,在测试时该神经元总是激活,为了保持同样的输出期望值并使下一层也得到同样的结果,需要调整\(x \rightarrow px\). 其中p是Bernoulli分布(0-1分布)中值为1的概率。示意图如下:

dropout train/test nooverfit.com/wp/wp-content/uploads/2016/07/QQ%E6%88%AA%E5%9B%BE20160729103207.png

inverted dropout

在训练时由于舍弃了一些神经元,因此在测试时需要在激励的结果中乘上因子p进行缩放.但是这样需要需要对测试的代码进行更改并增加了测试时的计算量,非常影响测试性能。通常为了提高测试的性能(减少测试时的运算时间),可以将缩放的工作转移到训练阶段,而测试阶段与不使用dropout时相同,称为 **inverted dropout **:将前向传播dropout时保留下来的神经元的权重乘上1/p(看做惩罚项,使权重扩大为原来的1/p倍,这样测试时不用再缩小权重),代码参考这里
在架构中添加inverted Dropout这一改动仅会影响训练过程,而并不影响测试过程。

drop的比例常用值是p=0.5 .
Dropout率和正规化有什么关系?我们定义Dropout率为保留一个神经元为激活状态的概率.Dropout率越高,意味着更多神经元是激活的,正规化程度越低.

dropout

Dropout可以与Max-norm regularization,较大的初始学习率和较高的动量(momentum)等结合获得比单独使用Dropout更好的效果。由于Max-norm regularization的应用,设置较大的学习率不至于发生梯度爆炸。

Dropout对于循环层效果并不理想,你可能需要稍微修改一下dropout技术来得到良好的结果。

在dropout的过程中,神经元被失活,在dropconnect的过程中,失活的是神经元之间的连接。所以dropout会使输入和输出权重都变为无效,而在dropconnect中,只有其中一种会被失活。

Dropout可以看作是Bagging的极限形式,每个模型都在当一种情况训练,同时模型的每个参数都经过与其他模型共享参数,从而高度正则化。

AlphaDropout

Alpha Dropout是一种保持输入均值和方差不变的Dropout,该层的作用是通过缩放和平移使得在dropout时也保持数据的自规范性。Alpha Dropout与SELU激活函数配合较好。更多细节参考论文Self-Normalizing Neural Networks.

代码实现

caffe dropout_layer 代码如下:

// LayerSetUp
DCHECK(threshold_ > 0.);
DCHECK(threshold_ < 1.);
scale_ = 1. / (1. - threshold_);
// forward
void DropoutLayer<Dtype>::Forward_cpu(const vector<Blob<Dtype>*>& bottom,
    const vector<Blob<Dtype>*>& top) {
  const Dtype* bottom_data = bottom[0]->cpu_data();
  Dtype* top_data = top[0]->mutable_cpu_data();
  unsigned int* mask = rand_vec_.mutable_cpu_data();
  const int count = bottom[0]->count();
  if (this->phase_ == TRAIN) {
    // 产生01掩码,伯努利随机数
    caffe_rng_bernoulli(count, 1. - threshold_, mask);
    for (int i = 0; i < count; ++i) {
      // 丢弃部分置0,保留部分按inverted dropout需要放大scale_倍
      top_data[i] = bottom_data[i] * mask[i] * scale_;
    }
  } else { // 测试阶段原样输出
    caffe_copy(bottom[0]->count(), bottom_data, top_data);
  }
}

//backward
void DropoutLayer<Dtype>::Backward_cpu(const vector<Blob<Dtype>*>& top,
    const vector<bool>& propagate_down,
    const vector<Blob<Dtype>*>& bottom) {
  if (propagate_down[0]) {
    const Dtype* top_diff = top[0]->cpu_diff();
    Dtype* bottom_diff = bottom[0]->mutable_cpu_diff();
    if (this->phase_ == TRAIN) {
      const unsigned int* mask = rand_vec_.cpu_data();
      const int count = bottom[0]->count();
      for (int i = 0; i < count; ++i) {
        bottom_diff[i] = top_diff[i] * mask[i] * scale_;
      }
    } else {
      caffe_copy(top[0]->count(), top_diff, bottom_diff);
    }
  }
}

可以进一步阅读的论文有:

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/167372.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • dede 你所上传的软件类型不在许可列表,请更改系统对扩展名限定的配置

    dede 你所上传的软件类型不在许可列表,请更改系统对扩展名限定的配置

  • JDK下载与安装教程(超详细)「建议收藏」

    JDK下载与安装教程(超详细)「建议收藏」JDK下载与安装教程(超详细)学习JAVA,必须得安装一下JDK(javadevelopmentkitjava开发工具包),配置一下环境就可以学习JAVA了,下面是下载和安装JDK的教程:1.JDK下载地址:[http://www.oracle.com/technetwork/java/javase/downloads/index.html]点开链接后选择如下下载按钮(选择的是jdk1.8的,也可以选择更高版本的。提示:最好创建一个Oracle账号,以便以后使用)2.点击下载后,会出现如下

  • 异步提交表单_js异步提交表单并回调

    异步提交表单_js异步提交表单并回调异步提交表单异步提交表单的步骤所谓异步提交表单,就是不再使用表单的提交按钮实现表单的提交功能,而是通过Ajax异步交互方式实现表单提交。具体实现步骤如下:获取表单及所有表单组件对应的数据值。将所有表单组件对应的数据值拼成特定格式的字符串或是JSON格式数据。通过Ajax异步交互方式提交表单。varinfo=’username=’+$(‘#username’).val()+’&password=’+$(‘#password’).val();$.ajax({url:”

    2022年10月28日
  • 普林斯顿体系架构和哈佛架构的区别_边和 普林斯顿

    普林斯顿体系架构和哈佛架构的区别_边和 普林斯顿目前接触到的单片机架构就这两种:普林斯顿体系和哈佛结构:两者的主要区别是:codememory和datememory是不是分开存放。普林斯顿体系是程序存储器和数据存储器集合一体的架构;MEMORY单总线到CPU,这样在一个工作周期中:读指令—译码—-取数据过程中,读指令和取数据两次访问不得不分开按次序执行,效率低;特别是这样的设计使得CPU在访存时遇到了很大的瓶颈,特别是现在C

  • python中的单引号和双引号的区别和用法_python中打印输出的语句

    python中的单引号和双引号的区别和用法_python中打印输出的语句python中的单引号和双引号的区别今天在码代码的过程中突然想到这个问题,于是上网浏览了一下,发现在python中两种表达方式是没有区别的,两种表达方式都可以用来表达一个字符串。但是这两种通用的表达方式,除了可以简化大家的开发,避免出错以外,还有一种好处,就是可以减转义字符的使用,使程序看起来更加简洁,更清晰。所以这里简单给大家分享一下,并举例说明。1.包含单引号的字符串假如我们想定义一个字符串my_str,其值为:I’mastudent,则可采用如下两种方式,通过转义字符“\”进行定义my_s

    2022年10月31日
  • cssText属性的使用「建议收藏」

    cssText属性的使用「建议收藏」cssText是什么?简单来说是设置元素的style属性值,比如 ele.style.cssText = 'display: block';

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号