数据归一化小结

数据归一化小结在各种模型训练,特征选择相关的算法中,大量涉及到数据归一化的问题。比如最常见的情况是计算距离,如果不同维度之间的取值范围不一样,比如feature1的取值范围是[100,200],feature2的取值范围是[1,2],如果数据不做归一化处理,会造成feature1在距离计算中占压倒性的优势,feature2完全体现不出来作用。而数据做归一化处理以后,会让各个不同特征对距离计算的贡献大致相同,从而避

大家好,又见面了,我是你们的朋友全栈君。

项目github地址:bitcarmanlee easy-algorithm-interview-and-practice
欢迎大家star,留言,一起学习进步

在各种模型训练,特征选择相关的算法中,大量涉及到数据归一化的问题。比如最常见的情况是计算距离,如果不同维度之间的取值范围不一样,比如feature1的取值范围是[100,200],feature2的取值范围是[1,2],如果数据不做归一化处理,会造成feature1在距离计算中占压倒性的优势,feature2完全体现不出来作用。而数据做归一化处理以后,会让各个不同特征对距离计算的贡献大致相同,从而避免人为的数据倾斜。

常见的数据归一化方式如下:

1.线性归一化

如果要把输入数据转换到[0,1]的范围,可以用如下公式进行计算:
X n o r m = X − X m i n X m a x − X m i n X_{norm} = \frac{X – X_{min}}{X_{max} – X_{min}} Xnorm=XmaxXminXXmin
按以上方式进行归一化以后,输入数据转换到[0,1]的范围。
有时候我们希望将输入转换到[-1,1]的范围,可以使用以下的公式
X n o r m = 2 ∗ ( X − X m i n ) X m a x − X m i n − 1 X_{norm} = \frac{2*(X – X_{min})}{X_{max} – X_{min}} – 1 Xnorm=XmaxXmin2(XXmin)1

以上两种方式,都是针对原始数据做等比例的缩放。其中 X n o r m X_{norm} Xnorm 是归一化以后的数据, X X X是 原始数据大小, X m a x X_{max} Xmax X m i n X_{min} Xmin 分别是原始数据的最大值与最小值。公式简单明了,很容易懂。
除了将数据缩放到[0,1]或[-1,1]的范围,实际中还经常有其他缩放需求。例如在进行图像处理的过程中,获得的灰度图像的灰度值在[0,255]之间。常用的处理方式之一就是将像素值除以255,就缩放到了[0,1]之间。而在RGB图像转灰度图像的过程中,经常就将灰度值限定在[0,255]之间。

2.0均值归一化

0均值归一化将输入的原始数据集归一化为均值为0,方差为1的数据集。具体的归一化公式如下:
z = x − μ σ z = \frac{x – \mu}{\sigma} z=σxμ
其中, μ \mu μ, σ \sigma σ是原始 数据集的均值与标准差。这种方式要求原始数据集的分布近似为正态(高斯)分布。否则归一化的效果很差。

http://ufldl.stanford.edu/wiki/index.php/数据预处理 中关于0均值归一化的描述:
特征标准化指的是(独立地)使得数据的每一个维度具有零均值和单位方差。这是归一化中最常见的方法并被广泛地使用(例如,在使用支持向量机(SVM)时,特征标准化常被建议用作预处理的一部分)。在实际应用中,特征标准化的具体做法是:首先计算每一个维度上数据的均值(使用全体数据计算),之后在每一个维度上都减去该均值。下一步便是在数据的每一维度上除以该维度上数据的标准差。
例子:处理音频数据时,常用 Mel 倒频系数 MFCCs 来表征数据。然而MFCC特征的第一个分量(表示直流分量)数值太大,常常会掩盖其他分量。这种情况下,为了平衡各个分量的影响,通常对特征的每个分量独立地使用标准化处理。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/152322.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • B样条曲线与贝塞尔曲线学习笔记

    B样条曲线与贝塞尔曲线学习笔记贝塞尔曲线基本公式:B(t)=∑i=0n(in)Pi(1−t)n−iti,t∈[0,1]基本公式:B(t)=\sum_{i=0}^{n}\Big({_i^n}\Big)P_i(1-t)^{n-i}t^i,t\in[0,1]基本公式:B(t)=i=0∑n​(in​)Pi​(1−t)n−iti,t∈[0,1]三次贝塞尔曲线:B(t)=P0(1−t)3+3P1t(1−t)2+3P2t2(1−t)…

  • 开机出现DISK BOOT FAILURE,INSERT SYSTEM DISK AND PRESS ENTER「建议收藏」

    开机出现DISK BOOT FAILURE,INSERT SYSTEM DISK AND PRESS ENTER「建议收藏」开机就出现DISKBOOTFAILURE,INSERTSYSTEMDISKANDPRESSENTER我的第一引导是从光驱,第二是从硬盘。以前是可以正常从硬盘启动的,突然发现这种现象。光驱里面没有光盘,为什么不能从硬盘启动了呢?开机滴的一声,应该是自检正常啊。打开BIOS查看了一下,好像也没动什么数据,打开机箱,把几个插头插紧了一下,(不记得做了哪些操作,反正没动内存

  • 关于nginx的五大面试题_vue面试题大全

    关于nginx的五大面试题_vue面试题大全1、你近期使用过的Nginx的版本?生产环境使用Stableversion:最新稳定版注意各版本的区别:Nginx官网提供了三个类型的版本1、Mainlineversion:Mainline是Nginx目前主力在做的版本,可以说是开发版2、Stableversion:最新稳定版,生产环境上建议使用的版本3、Legacyversions:遗留的老版本的稳定版2、Nginx…

  • 基于multisim的语音放大器电路设计

    基于multisim的语音放大器电路设计目录目录 -1-1设计题目及目的 -3-1.1题目 -3-1.2目的 -3-2设计内容 -3-3实验要求 -3-4实验原理 -4-4.1前置放大电路 -4-4.2带通滤波电路 -4-4.3功率放大电路 -4-4.4整体组装电路 -4-5芯片功能及参数介绍 -5-5.1LM324N引脚及功能介绍 -5…

  • HDU 2544 最短路 SPFA 邻接表 模板

    HDU 2544 最短路 SPFA 邻接表 模板

    2021年12月15日
  • linux查看文件权限修改记录_文件修改记录

    linux查看文件权限修改记录_文件修改记录1、从文件类型上分可分为三种,   用ls-l查询,以“一”开头的是文件,以字母“d”开头的是目录(俗称文件夹),以字母“l”开头的是连接。 2、剩下的9个分别三个为一组每一组都有四种符号组成分别是“r”,“w”,“x”,“-”。    r(read):代表读的权限    w(write):代表写的权限    x(execuite):

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号