深度学习中的batch(batch size,full batch,mini batch, online learning)、iterations与epoch

概念引入    我们已知在梯度下降中需要对所有样本进行处理过后然后走一步,那么如果我们的样本规模的特别大的话效率就会比较低。假如有500万,甚至5000万个样本(在我们的业务场景中,一般有几千万行,有些大数据有10亿行)的话走一轮迭代就会非常的耗时。这个时候的梯度下降使用了全部的样本数据,所以叫做fullbatch。为了提高效率,我们可以把样本分成等量的子集。例如我们把500万样本分成1…

大家好,又见面了,我是你们的朋友全栈君。

概念引入

       我们已知在梯度下降中需要对所有样本进行处理过后然后走一步,那么如果我们的样本规模的特别大的话效率就会比较低。假如有500万,甚至5000万个样本(在我们的业务场景中,一般有几千万行,有些大数据有10亿行)的话走一轮迭代就会非常的耗时。这个时候的梯度下降使用了全部的样本数据,所以叫做full batch

为了提高效率,我们可以把样本分成等量的子集。 例如我们把500万样本分成1000份(子集), 每份5000个样本, 这些子集就称为mini batch。然后我们分别用一个for循环遍历这1000个子集。 针对每一个子集做一次梯度下降。 然后更新参数w和b的值。接着到下一个子集中继续进行梯度下降。 这样在遍历完所有的mini batch之后我们相当于在梯度下降中做了1000次迭代(iterations)。 我们将遍历一次所有样本的行为叫做一个 epoch,也就是一个世代。 在mini batch下的梯度下降中做的事情其实跟full batch一样,只不过我们训练的数据不再是所有的样本,而是一个个的子集。 这样在mini batch我们在一个epoch中就能进行1000次的梯度下降,而在full batch中只有一次。 这样就大大的提高了我们算法的运行速度(以及梯度下降的迭代次数)。

  • batch: batch是批深度学习每一次参数的更新所需要损失函数并不是由一个{data:label}获得的,而是由一组数据加权得到的,这一组数据的数量就是[batch size]。
  • batch size最大是样本总数N,此时就是Full batch learning如果数据集较小,可以采用全数据集(Full batch learning)的形式,这样有两个显然的好处:1.由全数据集计算的梯度能够更好的代表样本总体,从而更准确的朝向极值所在的方向;2.不同权重的梯度值差别很大,因此选取一个全局的学习率会比较困难(?)
  • batch size最小是1,即每次只训练一个样本,这就是在线学习(Online Learning)
  • batch size既不是最大N,也不是最小1,此时就是通常意义上的batch(有的框架如keras也称之为mini batch
  • epoch:世代。当我们分批学习时,每次使用过全部训练数据(全部子集)完成一次Forword运算以及一次BP运算,成为完成了一次epoch(世代)
  • Iterations:迭代比如,我们有1000个样本,batch size是50,其将会有20个Iterations。这20个Iteration完成一个Epoch。

batch利弊分析

batch的思想,至少有两个作用,一是更好的处理非凸的损失函数,非凸的情况下, 全样本就算工程上算的动, 也会卡在局部优上, 批表示了全样本的部分抽样实现, 相当于人为引入修正梯度上的采样噪声,使“一路不通找别路”更有可能搜索最优值;二是合理利用内存容量。

batch的优点:1、更少的内存;2,、训练速度快

batch的缺点:1、精度较低;2、迭代过程中,损失函数(loss)会上下波动(但总体是向下的)

深度学习中的batch(batch size,full batch,mini batch, online learning)、iterations与epoch

如上图,左边是full batch的梯度下降效果。 可以看到每一次迭代成本函数都呈现下降趋势,这是好的现象,说明我们w和b的设定一直再减少误差。 这样一直迭代下去我们就可以找到最优解。 右边是mini batch的梯度下降效果,可以看到它是上下波动的,成本函数的值有时高有时低,但总体还是呈现下降的趋势。 这个也是正常的,因为我们每一次梯度下降都是在min batch上跑的而不是在整个数据集上。 数据的差异可能会导致这样的效果(可能某段数据效果特别好,某段数据效果不好)。但没关系,因为他整体的是呈下降趋势的。

深度学习中的batch(batch size,full batch,mini batch, online learning)、iterations与epoch

把上面的图看做是梯度下降空间。 下面的蓝色的部分是full batch的而上面是mini batch。 就像上面说的mini batch不是每次迭代损失函数都会减少,所以看上去好像走了很多弯路。 不过整体还是朝着最优解迭代的。 而且由于mini batch一个epoch就走了5000步(5000次梯度下降),而full batch一个epoch只有一步。所以虽然mini batch走了弯路但还是会快很多

batch size经验公式

既然有了mini batch那就会有一个batch size的超参数,也就是块大小。代表着每一个mini batch中有多少个样本。 我们一般设置为2的n次方。 例如64,128,512,1024. 一般不会超过这个范围。不能太大,因为太大了会无限接近full batch的行为,速度会慢。 也不能太小,太小了以后可能算法永远不会收敛。 当然如果我们的数据比较小, 但也用不着mini batch了。 full batch的效果是最好的。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/127491.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • MySQL主从+Atlas 实现读写分离

    MySQL主从+Atlas 实现读写分离

  • eclipse安装lombok插件 出现打不开(lombok插件怎么读)

    1、下载lombok.jar,lombok.jar官方下载地址:https://projectlombok.org/download如果下载不了的话,下面是我个人的百度云资源:链接:https://pan.baidu.com/s/1Eiwy0Kb6OxCDuZw0O268kg提取码:ds772、双击下载好的lombak.jar,安装步骤如下:2-1…

  • a javascript error occurred in_in from of是什么意思

    a javascript error occurred in_in from of是什么意思ERRORinapp.bundle.jsfromUglifyJs问题ERRORinapp.bundle.jsfromUglifyJsUnexpectedtoken:name«element»,expected:punc«;»[app.bundle.js:106,8]在用webpack对代码打包的时候报错,在网上找到了类似的答案,还是没有解决我的问题.能解…

  • Lamp架构_lamp部署

    Lamp架构_lamp部署lamp(Web应用软件组合)Linux+Apache+Mysql/MariaDB+Perl/PHP/Python一组常用来搭建动态网站或者服务器的开源软件,本身都是各自独立的程序,但是因为常被放在一起使用,拥有了越来越高的兼容度,共同组成了一个强大的Web应用程序平台。随着开源潮流的蓬勃发展,开放源代码的LAMP已经与J2EE和.Net商业软件形成三足鼎立之势,并且该软件开发的项目在软件方…

    2022年10月16日
  • HttpOnly的设置[通俗易懂]

    HttpOnly的设置[通俗易懂]描述:1.会话cookie中缺少HttpOnly属性会导致攻击者可以通过程序(JS脚本、Applet等)获取到用户的cookie信息,造成用户cookie信息泄露,增加攻击者的跨站脚本攻击威胁。2.HttpOnly是微软对cookie做的扩展,该值指定cookie是否可通过客户端脚本访问。MicrosoftInternetExplorer版本6ServicePack1和更高…

  • 数据库索引的作用和长处缺点

    数据库索引的作用和长处缺点

    2021年11月16日

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号