模型训练技巧[通俗易懂]

模型训练技巧[通俗易懂]模型训练技巧神经网络模型设计训练流程图1-1神经模型设计流程当我们设计并训练好一个神经网络之后,需要在训练集上进行验证模型效果是否良好。这一步的目的在于判断模型是否存在欠拟合;在确定已经在训练

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

模型训练技巧

神经网络模型设计训练流程

模型训练技巧[通俗易懂]

图1-1 神经模型设计流程

  当我们设计并训练好一个神经网络之后,需要在训练集上进行验证模型效果是否良好。这一步的目的在于判断模型是否存在欠拟合;在确定已经在训练集上拟合的很好,就需要在测试集上进行验证,如果验证结果差就需要重新设计模型;如果效果一般,可能需要增加正则化,或者增加训练数据;

欠拟合处理策略

 当模型在训练集上的表现结果并不好的时候,在排除不是数据集和训过程有问题,你可以采用以下几个方法来进行处理。

更换激活函数

Sigmoid激活函数

 Sigmoid函数的形式如(1)所示,图结构如图1-2所示

  模型训练技巧[通俗易懂]

 

 模型训练技巧[通俗易懂]

图1-2 sigmoid函数

 

 但是使用Sigmoid函数作为激活函数会存在梯度消失的现象。就是当神经网络的隐藏层数量超过3层的时候,底层的参数更新就几乎为0;

ReLu(Rectified Linear Unit)激活函数

  ReLu函数的形式如(2)所示,图形结构如图1-3所示

    模型训练技巧[通俗易懂]

 模型训练技巧[通俗易懂]

图1-3 ReLu函数

  使用ReLu作为激活函数的原因在于:1)计算更为简单,相比与Sigmoid函数,ReLu计算的更为简单2)ReLu相当于无穷多个不同偏置的Sigmoid函数叠加起来的效果3)ReLu可以解决梯度消失的问题。由于ReLu函数结构,当某个神经元的输出为0时(如图1-4所示),就相当于该神经元在神经网络中不起任何作用,可以将这一些神经元从神经网络中舍去(如图1-5)。

模型训练技巧[通俗易懂] 

图1-4 神经网络中输出为0的神经元

模型训练技巧[通俗易懂] 

图1-5 “瘦长线性”神经网络

 

Leaky ReLu激活函数

 由于当ReLu的输入模型训练技巧[通俗易懂]时,对应的神经元就不起任何作用。因此,Leaky ReLu的改进点是当输入模型训练技巧[通俗易懂]时,输出不再是0,而是一个较小值。Leaky ReLu函数结构如(3)所示,模型训练技巧[通俗易懂]的取值通常需要人工赋值,如当模型训练技巧[通俗易懂]时,函数结构如1-6所示

模型训练技巧[通俗易懂]

 

 模型训练技巧[通俗易懂]

图1-6 Leaky ReLu激活函数

Parametric ReLu激活函数

 由于在Leaky ReLu中的需要人工赋值,模型训练技巧[通俗易懂]赋值的好坏需要一定的先验知识。因此,Parametric ReLu中的模型训练技巧[通俗易懂]是参数,是可以被训练出来,甚至每一个神经元都可以有不同的模型训练技巧[通俗易懂]

 模型训练技巧[通俗易懂]

 

图1-7 Parametric ReLu激活函数

  模型训练技巧[通俗易懂]的训练情况更一般参数一样,但跟一般的参数更新有所区别的是模型训练技巧[通俗易懂]采用带有动量的更新方法

 模型训练技巧[通俗易懂]

  其中模型训练技巧[通俗易懂]为动量,模型训练技巧[通俗易懂]为学习率;

 

Maxout可学习激活函数(Learnable Activation Function)

  Maxout是一种可学习的激活函数,它可以学习出来ReLu函数的形式。因此,ReLu是Maxout的一种特殊情况。 Maxout结构如图1-8所示,当输出值跟权重相乘后,并不是送进激活函数进行转换,而是将若干元素作为一组(元素数量需预先设定),选择最大值作为输出。

 模型训练技巧[通俗易懂]

图1-8 Maxout结构

  以图1-9为例,当其中一个输入为1,则最终可以的激活函数实行为图1-10所示。根据你选择多少个元素作为一组,就可以训练出任意的分段函数。

 模型训练技巧[通俗易懂]

图1-9 Maxout示例

 模型训练技巧[通俗易懂]

图1-10 Maxout训练出的激活函数

 

自适应学习率

Adagrad

     Adagrad是将学习率的取值跟之前所有偏微分值的均方值的根号有关系。以当个参数为例,具体的计算如下

    模型训练技巧[通俗易懂]

  其中,模型训练技巧[通俗易懂]表示对模型训练技巧[通俗易懂]的偏导数;模型训练技巧[通俗易懂]表示将先前所有对参数的偏导数的平方进行累加,并求均值,最后再取根号;

RMSProp

  RMSProp的计算公式如(7)所示,从公式中可以看出,在进行参数更新的时候,不仅考虑了当前的梯度模型训练技巧[通俗易懂],也考虑了先前历史的梯度模型训练技巧[通俗易懂]。其中模型训练技巧[通俗易懂]是可以自己设置的常数,当模型训练技巧[通俗易懂]的值较小时,就表示比较相信当前的梯度。

   模型训练技巧[通俗易懂]

Momentum

 Momentum的思想来自于现实生活中的场景,当我们往一个崎岖的抛一个球时,由于重力势能,会导致球不一定停留在第一个凹点,可能会翻过第一个凸点,到达全局最低点。

 模型训练技巧[通俗易懂]

图1-11 Momentum现实场景

 因此,不同于以往的移动方向只考虑梯度方向,也会考虑到以往的移动方向。具体的计算公式中为(8)

模型训练技巧[通俗易懂] 

过拟合处理策略

早停(Early Stopping)

  早停的思想就是,当模型在训练集上的训练误差在降低时,在测试集的测试误差可能会增加,如图1-12所示。因此需要在训练误差和测试误差之间做一个权衡。

 模型训练技巧[通俗易懂]

图1-12 训练误差与测试误差

正则化(Regularization)

   添加正则化的目的在于增加模型的平滑性,并且通常会在已有的损失函数上添加一些跟参数相关的项。

L2正则化

   假定现在已经确定的损失函数为L(θ),而L2正则化会对添加一项,L(θ)形式如(9)

     模型训练技巧[通俗易懂]

 

  当添加上L2之后,对于参数的跟新形式变为(10)

          模型训练技巧[通俗易懂]

  对于(10)的模型训练技巧[通俗易懂]跟不添加L2正则项是一样的,而增加L2后,就相当于参数w在更新之前总是会乘上一个小于1的数,因此总是会使w的值减小,这个计算过程称作Weight Decay。L2的效果是使得参数越来越接近0,而我们在初始化参数时通常也会初始化接近于0的值;而我们更新的参数是使得参数越来越远离0,;因此,L2的效果跟早停的效果有些相似。

L1正则化

    L1正则化跟L2正则化非常相似,只是L2是取平方和,而L1是取绝对值,形式如(11)

   模型训练技巧[通俗易懂]

   添加L1项后,参数的更新形式就为

    模型训练技巧[通俗易懂]

 

 因此,当w>0时,模型训练技巧[通俗易懂]为正,从而使得w的值减小;反之,当w<0时,就会加上一个正数,从而使w的值增加。由于L2是每次都乘上一个小于0的系数因此w减小的会比较明显;而L1是每次都减去一个固定值,因此下降的比较缓慢;所以,在最终训练出来的w,添加L2项的参数普遍较小;添加L1的参数可能有大有小。

Dropout

   Dropout的做法是对于一个确定好的神经网络模型,每一次更新参数前都会对原始模型中的每一个神经元进行采样,决定是否丢弃神经元,每一个神经元都有p%的几率被丢掉。

 模型训练技巧[通俗易懂]

图1-13 dropout采样过程

模型训练技巧[通俗易懂]

图1-14 dropout采样后的NN结构

     在训练的时候需要对模型进行dropout采样,但是当测试的时候就不要进行采样,而且,每一个参数都要乘上(1-p)%。如图1-15所示,假设dropout几率为50%,则训练时有一半的神经元会被丢弃。而在测试时,为了使测试和训练的输出尽可能相同,就需要对每一个权重都乘上(1-p)%,以保持输出值的平衡(如图1-15右图所示)。

 

模型训练技巧[通俗易懂]

图1-15 dropout测试权重处理

Dropout原理解释

  Dropout可以看做是一种集成学习。集成学习的做法大致是,从训练集中采样出多笔数据,分别去训练不同的模型(模型的结构可以不同)。用训练出的多个模型分别对测试集进行预测,将最终的结果进行平均(如图1-16所示)。

模型训练技巧[通俗易懂]

图1-16 集成学习的处理方法

 假定设计的神经网络中的神经元个数为M个,每个神经元可能被dropout或者不被dropout。因此,每个神经元有2种选择,而M个神经元就有2M选择,对应的就可以产生2M种模型结构。因此,在训练模型时,就相当于训练了多个模型。对于模型中的某个权重是,在不同的dropout的神经网络中是共享的。

 模型训练技巧[通俗易懂]

图1-17 dropout训练过程

  但是,在训练好之后,需要进行预测。但是无法将如此多的模型分别进行存储,并单独预测。于是,为了解决这个问题,就在所有的不Dropout的模型的权重都乘上(1-p)%。

 模型训练技巧[通俗易懂]

图1-18 dropout权重处理

 Dropout在线性激活函数上的表现会更好。原因在于,当激活函数为线性是,所有权重都乘上(1-p)%,dropout后的模型输出跟集成输出的结果更加接近了。

Sigmoid梯度消失分析

 但是使用Sigmoid函数作为激活函数会存在梯度消失的现象。就是当神经网络的隐藏层数量超过3层的时候,底层的参数更新就几乎为0;这是因为Sigmoid求导公式为S(x)’=S(x)(1-S(x)),当时x=0,S(x)=0.5时,maxS(x)’=0.25而当我们要求解底层的参数时,需要累乘上层参数的斜率,也就是要乘上多个小于0.25的数,当乘的个数较多时,模型训练技巧[通俗易懂]的值就会变得很小,从而导致梯度消失现象。而由于ReLu函数的斜率为1,进行求导在累乘,不会产生上述情况。

参考资料

[1]机器学习-李宏毅

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/167451.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 自监督学习(self-supervised learning)(20201124)

    自监督学习(self-supervised learning)(20201124)看论文总是会看出来一堆堆奇奇怪怪的名词。从远程监督、有监督、半监督、无监督开始,最近又看到了一个自监督。首先先对上面的概念进行简述:半监督(semi-supervisedlearning):利用好大量无标注数据和少量有标注数据进行监督学习;远程监督(distant-supervisedlearning):利用知识库对未标注数据进行标注;无监督:不依赖任何标签值,通过对数据内在特征的挖掘,找到样本间的关系,比如聚类相关的任务。自监督:利用辅助任务从无监督的数据中挖掘大量自身的信息。

  • nfv网络功能虚拟化[通俗易懂]

    nfv网络功能虚拟化[通俗易懂]标题作者及单位文件名日期概述数据度量OnOrchestratingVirtualNetworkFunctionsinNFVMd.FaizulBari,ShihaburRahmanChowdhury,ReazAhmed,andRaoufBoutabaDavidR.CheritonSchoolofComputerScienc…

  • Mysql 日期类型比较 TIMESTAMPDIFF

    Mysql 日期类型比较 TIMESTAMPDIFF  在数据库查询中,经常遇到计算2个日期相差值,SQL提供一个非常有用的函数:TIMESTAMPDIFFT。  基本语法:TIMESTAMPDIFF(interval,datetime_expr1,datetime_expr2)    其中,interval的取值可以为:SECOND,MINUTE,HOUR,DAY,WEEK,MONTH,QUARTERorYEAR   …

  • 使用自己的数据集训练GoogLenet InceptionNet V1 V2 V3模型(TensorFlow)「建议收藏」

    使用自己的数据集训练GoogLenet InceptionNet V1 V2 V3模型(TensorFlow)「建议收藏」使用自己的数据集训练GoogLenetInceptionNetV1V2V3模型(TensorFlow)【尊重原创,转载请注明出处】https://blog.csdn.net/guyuealian/article/details/81560537新增博客《使用自己的数据集训练MobileNet、ResNet图像识别(TensorFlow)》https://panjinquan.blo…

  • matlab画图透明度_css设置透明度

    matlab画图透明度_css设置透明度直接上代码b=bar(1:10);alpha(0.1)alpha-向坐标区的对象添加透明度,值越小越透明下有两图做example:参考资料:bar画的图怎么设置颜色为透明?

  • Asp.net中文本框全选

    Asp.net中文本框全选Asp.net中文本框全选

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号