【调优方法】——warmup

全栈程序员-用户IM • 2022年10月22日下午9:00 • 未分类

【调优方法】——warmup学习率是模型训练中最重要的超参之一，针对学习率的优化有很多种方法，而warmup是其中重要的一种。1.什么是warmupwarmup是一种学习率优化方法（最早出现在ResNet论文中）。在模型训练之初选用较小的学习率，训练一段时间之后（如：10epoches或10000steps）使用预设的学习率进行训练；2.为什么使用warmup2.1理性分析因为模型的weights是随机初始…

大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46，售后保障稳定

学习率是模型训练中最重要的超参之一，针对学习率的优化有很多种方法，而warmup是其中重要的一种。

1. 什么是warmup

warmup是一种学习率优化方法（最早出现在ResNet论文中）。在模型训练之初选用较小的学习率，训练一段时间之后（如：10epoches或10000steps）使用预设的学习率进行训练；

2. 为什么使用warmup

2.1 理性分析

因为模型的weights是随机初始化的，可以理解为训练之初模型对数据的“理解程度”为0（即：没有任何先验知识），在第一个epoches中，每个batch的数据对模型来说都是新的，模型会根据输入的数据进行快速调参，此时如果采用较大的学习率的话，有很大的可能使模型对于数据“过拟合”（“学偏”），后续需要更多的轮次才能“拉回来”；
当模型训练一段时间之后（如：10epoches或10000steps），模型对数据具有一定的先验知识，此时使用较大的学习率模型就不容易学“偏”，可以使用较大的学习率加速模型收敛；
当模型使用较大的学习率训练一段时间之后，模型的分布相对比较稳定，此时不宜从数据中再学到新特点，如果仍使用较大的学习率会破坏模型的稳定性，而使用小学习率更容易获取local optima。

2.2 感性分析

刚开始模型对数据完全不了解，这个时候步子太大，容易扯着dan，此时需要使用小学习率摸着石头过河；
对数据了解了一段时间之后，可以使用大学习率朝着目标大步向前；
快接近目标时，使用小学习率进行探索，此时步子太大，容易错过最近点；

3. 常用的warmup

3.1 Constant Warmup

学习率从非常小的数值线性增加到预设值之后保持不变，其学习率的系数如下图所示：
在这里插入图片描述

3.2 Linner Warmup

学习率从非常小的数值线性增加到预设值之后，然后再线性减小。其学习率的系数如下图所示。
在这里插入图片描述

3.3 Cosine Warmup

学习率先从很小的数值线性增加到预设学习率，然后按照cos函数值进行衰减。其学习率系数如下图所示。
在这里插入图片描述

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/201118.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

赞 (0)

全栈程序员-用户IM

0 0

Python 递归的多种写法

Python 递归的多种写法题目背景：让我们来看一些例子。要对一个数字列表（或者其他序列）求和，我们可以使用内置的sum函数，或者自己编写一个更加定制化的版本。这里是用递归编写的一个定制求和函数的示例defmysum(L): ifnotL: return0 else: returnL[0]+mysum(L[1:])这是一种最基本的递归写法，通过递归的方式将列表中的所有进行相加，典型的鸭子类型…

全栈程序员-用户IM
2022年6月16日
WebService接口测试

WebService接口测试WebService的理解WebService就是Web服务的意思，对应的应用层协议为SOAP（相当于HTTP协议），可理解为远程调用技术。特点：客户端发送的请求主体内容（请求报文）的格式为XML格式接口返回的响应主体内容（响应报文）的格式为XML格式WSDL的介绍就是WebService接口对应的WSDL文件，该文件通过xml格式说明如何调用，可以看作WebService的接口文档（使用说明书…

全栈程序员-用户IM
2022年7月16日
Windows Server 2012 DHCP 高可用性

Windows Server 2012 DHCP 高可用性

全栈程序员-用户IM
2022年3月12日
Springboot整合一之Springboot整合RabbitMQ

Springboot整合一之Springboot整合RabbitMQ目前，springboot已然成为了最热的java开发整合框架，主要是因其简单的配置，并且本身提供了很多与第三方框架的整合，甚至可以让我们在短短的几分钟里就可以搭建一个完整的项目架构。所以，博主打算近期写一些springboot整合案例，也不知道先写哪个，那就从最近的写起吧，言归正传。。。…

全栈程序员-用户IM
2022年5月15日
【转贴】Render RenderContents RenderControl 三个方法的区别

【转贴】Render RenderContents RenderControl 三个方法的区别每个页面都有一个控件树，代表本页面所拥有的所有子控件，页面控件就是控件树的根，为了生成控件树，页面将建立一个HtmlTextWriter类的实例，在这个实例中封装了相应流，接着页面会把HtmlText

全栈程序员-用户IM
2022年7月4日
申请并部署阿里云SSL免费证书详细流程[通俗易懂]

申请并部署阿里云SSL免费证书详细流程[通俗易懂]1、申请阿里云SSL免费证书，依次如下图操作。注意：此处一直验证失败是因为用了CDN（很多找不到原因的问题都是因为使用了CDN），在百度云加速中再次解析一次即可。2、部署：阿里云服务器可直接部署，其他第三方服务器下载安装。（1）阿里云服务器部署。（2）第三方服务器下载安装，安装方法查看“下载”键左侧的“帮助”，本文中用的是PHPstudy8.0自带的安装方法。注意事项：一、服务器windows防火墙允许443端口；二、云服务器需要单独在控制面板设置允许443端

全栈程序员-用户IM
2022年10月3日

发表回复

关注全栈程序员社区公众号