数据归一化汇总[通俗易懂]

数据归一化汇总[通俗易懂]转自http://www.ilovematlab.cn/forum.php?mod=viewthread&tid=74021============外一篇有关mapminmax的用法详解byfaruto==================================几个要说明的函数接口:[Y,PS]=mapminmax(X)[Y,PS]=mapminmax(X,F

大家好,又见面了,我是你们的朋友全栈君。

转自http://www.ilovematlab.cn/forum.php?mod=viewthread&tid=74021

============外一篇 有关mapminmax的用法详解 by faruto==================================
几个要说明的函数接口:
[Y,PS] = mapminmax(X)
[Y,PS] = mapminmax(X,FP)
Y = mapminmax(‘apply’,X,PS)
X = mapminmax(‘reverse’,Y,PS)

用实例来讲解,测试数据 x1 = [1 2 4], x2 = [5 2 3];
>> [y,ps] = mapminmax(x1)
y =
   -1.0000   -0.3333    1.0000

ps =
      name: ‘mapminmax’
     xrows: 1
      xmax: 4
      xmin: 1
    xrange: 3
     yrows: 1
      ymax: 1
      ymin: -1
    yrange: 2

其中y是对进行某种规范化后得到的数据,这种规范化的映射记录在结构体ps中.让我们来看一下这个规范化的映射到底是怎样的?

Algorithm
It is assumed that X has only finite real values, and that the elements of each row are not all equal.

  • y = (ymax-ymin)*(x-xmin)/(xmax-xmin) + ymin;
  • [关于此算法的一个问题.算法的假设是每一行的元素都不想相同,那如果都相同怎么办?实现的办法是,如果有一行的元素都相同比如xt = [1 1 1],此时xmax = xmin = 1,把此时的变换变为y = ymin,matlab内部就是这么解决的.否则该除以0了,没有意义!]


也就是说对x1 = [1 2 4]采用这个映射 f: 2*(x-xmin)/(xmax-xmin)+(-1),就可以得到y = [ -1.0000   -0.3333    1.0000]
我们来看一下是不是: 对于x1而言 xmin = 1,xmax = 4;
则y(1) = 2*(1 – 1)/(4-1)+(-1) = -1;
    y(2) = 2*(2 – 1)/(4-1)+(-1) = -1/3 = -0.3333;
    y(3) = 2*(4-1)/(4-1)+(-1) = 1;
看来的确就是这个映射来实现的.
对于上面algorithm中的映射函数 其中ymin,和ymax是参数,可以自己设定,默认为-1,1;

比如:



>>[y,ps] = mapminmax(x1)

>> ps.ymin = 0;
>> [y,ps] = mapminmax(x1,ps)
y =
         0    0.3333    1.0000

ps =
      name: ‘mapminmax’
     xrows: 1
      xmax: 4
      xmin: 1
    xrange: 3
     yrows: 1
      ymax: 1
      ymin: 0
    yrange: 1
则此时的映射函数为: f: 1*(x-xmin)/(xmax-xmin)+(0),是否是这样的这回你可自己验证.O(∩_∩)O

如果我对x1 = [1 2 4]采用了某种规范化的方式, 现在我要对x2 = [5 2 3]采用同样的规范化方式[同样的映射],如下可办到:

>> [y1,ps] = mapminmax(x1);
>> y2 = mapminmax(‘apply’,x2,ps)


y2 =
    1.6667   -0.3333    0.3333
即对x1采用的规范化映射为: f: 2*(x-1)/(4-1)+(-1),(记录在ps中),对x2也要采取这个映射.
x2 = [5,2,3],用这个映射我们来算一下.
y2(1) = 2(5-1)/(4-1)+(-1) = 5/3 = 1+2/3 = 1.66667
y2(2) = 2(2-1)/(4-1)+(-1) = -1/3 = -0.3333

y2(3) = 2(3-1)/(4-1)+(-1) = 1/3 = 0.3333

X = mapminmax(‘reverse’,Y,PS)的作用就是进行反归一化,讲归一化的数据反归一化再得到原来的数据:
>> [y1,ps] = mapminmax(x1);

>> xtt = mapminmax(‘reverse’,y1,ps)
xtt =
     1     2     4
此时又得到了原来的x1(xtt = x1);


=================================

Matlab
数字归一化问题
(by yingzhilian)


http://www.ilovematlab.cn/viewthread.php?tid=26409&extra=page%3D1&sid=Xs3tJM


——————————————————-


归一化化定义:我是这样认为的,归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。
matlab里面,用于归一化的方法共有三种

:
1premnmxpostmnmx

tramnmx
2prestdpoststd

trastd
3)是用matlab语言自己编程。



premnmx
指的是归一到
[

1 1],prestd
归一到单位方差和零均值。(
3
)关于自己编程一般是归一到
[0.1  0.9]
。具体用法见下面实例。


为什么要用归一化呢?首先先说一个概念,叫做奇异样本数据,所谓奇异样本数据数据指的是相对于其他输入样本特别大或特别小的样本矢量。


下面举例:


m=[0.11 0.15 0.32 0.45 30;
      0.13 0.24 0.27 0.25 45];

其中的第五列数据相对于其他
4
列数据就可以成为奇异样本数据(下面所说的网络均值
bp
)。奇异样本数据存在所引起的网络训练时间增加,并可能引起网络无法收敛,所以对于训练样本存在奇异样本数据的数据集在训练之前,最好先进形归一化,若不存在奇异样本数据,则不需要事先归一化。


具体举例:


close all
clear
echo on
clc
%BP

建模


%
原始数据归一化

m_data=[1047.92 1047.83 0.39 0.39 1.0 3500 5075;
    1047.83 1047.68 0.39 0.40  1.0 3452 4912;
    1047.68 1047.52  0.40  0.41 1.0  3404 4749;
    1047.52  1047.27  0.41  0.42 1.0  3356 4586;
    1047.27  1047.41 0.42 0.43  1.0  3308  4423;
    1046.73  1046.74 1.70 1.80 0.75  2733  2465;
    1046.74  1046.82  1.80  1.78 0.75  2419 2185;
    1046.82 1046.73  1.78  1.75  0.75 2105  1905;
    1046.73  1046.48 1.75 1.85 0.70 1791  1625;
    1046.48  1046.03  1.85  1.82  0.70 1477 1345;
    1046.03 1045.33 1.82 1.68  0.70  1163  1065;
    1045.33  1044.95  1.68  1.71 0.70  849  785;
    1044.95  1045.21 1.71  1.72  0.70  533  508;
    1045.21 1045.64  1.72  1.70 0.70 567  526;
    1045.64 1045.44 1.70  1.69  0.70  601  544;
    1045.44 1045.78  1.69  1.69 0.70  635  562;
    1045.78 1046.20  1.69  1.52 0.75  667  580];
%

定义网络输入
p
和期望输出
t
pause
clc
p1=m_data(:,1:5);
t1=m_data(:,6:7);
p=p1′;t=t1′;
[pn,minp,maxp,tn,mint,maxt]=premnmx(p,t)
%

设置网络隐单元的神经元数
(5~30
验证后
5
个最好)

n=5;
%

建立相应的
BP
网络


pause
clc
net=newff(minmax(pn),[n,2],{‘tansig’,’purelin’},’traingdm’);
inputWeights=net.IW{1,1};
inputbias=net.b{1};
layerWeights=net.IW{1,1};
layerbias=net.b{2};
pause
clc
%

训练网络


net.trainParam.show=50;
net.trainParam.lr=0.05;
net.trainParam.mc=0.9;
net.trainParam.epochs=200000;
net.trainParam.goal=1e-3;
pause
clc
%

调用
TRAINGDM
算法训练
BP
网络


net=train(net,pn,tn);
%


BP
网络进行仿真


A=sim(net,pn);
E=A-tn;
M=sse(E)
N=mse(E)
pause
clc
p2=[1046.20 1046.05 1.52 1.538 0.75;
    1046.05 1046.85 1.538 1.510 0.75;
    1046.85 1046.60 1.510 1.408 0.75;
    1046.60 1046.77 1.408 1.403 0.75;
    1046.77 1047.18 1.403 1.319 0.75];
p2=p2′;
p2n=tramnmx(p2,minp,maxp);
a2n=sim(net,p2n);
a2=postmnmx(a2n,mint,maxt)
echo off
pause
clc

程序说明:所用样本数据(见
m_data
)包括输入和输出数据,都先进行归一化,还有一个问题就是你要进行预测的样本数据
(
见本例
p2)
在进行仿真前,必须要用
tramnmx
函数
进行事先归一化处理,然后才能用于预测,最后的仿真结果要用
postmnmx
进行反归一,这时的输出数据才是您所需要的预测结果。


个人认为:
tansig

purelin

logsig
是网络结构的传递函数,本身和归一化没什么直接关系,归一化只是一种数据预处理方法。


==================================================================================


需要说明的事并不是任何问题都必须事先把原始数据进行规范化,也就是数据规范化这一步并不是必须要做的,要具体问题具体看待,测试表明有时候规范化后的预测准确率比没有规范化的预测准确率低很多.就最大最小值法而言,当你用这种方式将原始数据规范化后,事实上意味着你承认了一个假设就是测试数据集的每一模式的所有特征分量的最大值(最小值)不会大于(小于)训练数据集的每一模式的所有特征分量的最大值(最小值),但这条假设显然过于强,实际情况并不一定会这样.使用平均数方差法也会有同样类似的问题.故数据规范化这一步并不是必须要做的,要具体问题具体看待
.   [faruto

]


实现上面的规范化代码:


  1. function normal = normalization(x,kind)
  2. % by Li Yang BNU MATH Email:farutoliyang@gmail.com QQ:516667408
  3. % last modified 2009.2.24
  4. %
  5. if nargin < 2
  6.     kind = 2;%kind = 1 or 2 表示第一类或第二类规范化
  7. end
  8. [m,n]  = size(x);
  9. normal = zeros(m,n);
  10. %% normalize the data x to [0,1]
  11. if kind == 1  
  12.     for i = 1:m
  13.         ma = max( x(i,:) );
  14.         mi = min( x(i,:) );
  15.         normal(i,:) = ( x(i,:)-mi )./( ma-mi );
  16.     end
  17. end
  18. %% normalize the data x to [-1,1]
  19. if kind == 2
  20.     for i = 1:m
  21.         mea = mean( x(i,:) );
  22.         va = var( x(i,:) );
  23.         normal(i,:) = ( x(i,:)-mea )/va;
  24.     end
  25. end

复制代码


====================================================

==================
关于神经网络(matlab)归一化的整理(by strongbox)
http://www.ilovematlab.cn/viewthread.php?tid=12186
———————————————————————-
由于采集的各数据单位不一致,因而须对数据进行[-11]归一化处理,归一化方法主要有如下几种,供大家参考:(by james
1、线性函数转换,表达式如下:
y=(x-MinValue)/(MaxValue-MinValue)
说明:xy分别为转换前、后的值,MaxValueMinValue分别为样本的最大值和最小值。
2、对数函数转换,表达式如下:
y=log10(x)
说明:以10为底的对数函数转换。
3、反余切函数转换,表达式如下:
y=atan(x)*2/PI
归一化是为了加快训练网络的收敛性,可以不进行归一化处理


归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在-1–+1之间是统计的坐标分布。归一化有同一、统一和合一的意思。无论是为了建模还是为了计算,首先基本度量单位要同一,神经网络是以样本在事件中的统计分别几率来进行训练(概率计算)和预测的,归一化是同一在0-1之间的统计概率分布;

当所有样本的输入信号都为正值时,与第一隐含层神经元相连的权值只能同时增加或减小,从而导致学习速度很慢。为了避免出现这种情况,加快网络学习速度,可以对输入信号进行归一化,使得所有样本的输入信号其均值接近于0或与其均方差相比很小。

归一化是因为sigmoid函数的取值是01之间的,网络最后一个节点的输出也是如此,所以经常要对样本的输出归一化处理。所以这样做分类的问题时用[0.9 0.1 0.1]就要比用[1 0 0]要好。

但是归一化处理并不总是合适的,根据输出值的分布情况,标准化等其它统计变换方法有时可能更好。
关于用premnmx语句进行归一化:
premnmx语句的语法格式是:[Pn,minp,maxp,Tn,mint,maxt]=premnmx(P,T)
其中PT分别为原始输入和输出数据,minpmaxp分别为P中的最小值和最大值。mintmaxt分别为T的最小值和最大值。
premnmx函数用于将网络的输入数据或输出数据进行归一化,归一化后的数据将分布在[-1,1]区间内。
我们在训练网络时如果所用的是经过归一化的样本数据,那么以后使用网络时所用的新数据也应该和样本数据接受相同的预处理,这就要用到tramnmx
下面介绍tramnmx函数:
[Pn]=tramnmx(P,minp,maxp)
其中PPn分别为变换前、后的输入数据,maxpminp分别为premnmx函数找到的最大值和最小值。
by terry2008

matlab中的归一化处理有三种方法
1. premnmxpostmnmxtramnmx
2. restdpoststdtrastd
3. 自己编程
具体用那种方法就和你的具体问题有关了
by happy
pm=max(abs(p(i,数据归一化汇总[通俗易懂])); p(i,数据归一化汇总[通俗易懂]=p(i,数据归一化汇总[通俗易懂]/pm;

for i=1:27
p(i,数据归一化汇总[通俗易懂]=(p(i,数据归一化汇总[通俗易懂]-min(p(i,数据归一化汇总[通俗易懂]))/(max(p(i,数据归一化汇总[通俗易懂])-min(p(i,数据归一化汇总[通俗易懂]));
end 可以归一到0 1之间
0.1+(x-min)/(max-min)*(0.9-0.1)其中maxmin分别表示样本最大值和最小值。
这个可以归一到0.1-0.9

=================================by  ratbaby
补充一个吧, 归一还可以用 mapminmax。
这个函数可以把矩阵的每一行归一到[-1 1].
[y1,PS] = mapminmax(x1). 其中x1 是需要归一的矩阵 y1是结果
当需要对另外一组数据做归一时,比如SVM 中的 training data用以上方法归一,而test data就可以用下面的方法做相同的归一了
y2 = mapminmax(‘apply’,x2,PS)
当需要把归一的数据还原时,可以用以下命令
x1_again = mapminmax(‘reverse’,y1,PS)

=================================



该部分讲述了Matlab mapminmax语法 使用方法讲解.

 

语法

[Y,PS] = mapminmax(YMIN,YMAX)
[Y,PS] = mapminmax(X,FP)
Y = mapminmax(‘apply’,X,PS)
X = mapminmax(‘reverse’,Y,PS)
dx_dy = mapminmax(‘dx’,X,Y,PS)
dx_dy = mapminmax(‘dx’,X,[],PS)
name = mapminmax(‘name’);

fp = mapminmax(‘pdefaults’);
names = mapminmax(‘pnames’);
remconst(‘pcheck’,FP);

描述

mapminmax将矩阵中每一行规范化到[YMIN,YMAX]范围内。

mapminmax(X,YMIN,YMAX)中参数YMIN,YMAX是可选的。

X为N*Q的矩阵或者每一元素为1*TS细胞元组的N*Q的矩阵。 Matlab中文论坛

YMIN Y中每个行的最小值(默认为-1) book.iLoveMatlab.cn

YMAX Y中每个行的最大值(默认为1)

返回值: book.iLoveMatlab.cn

Y M*Q的矩阵(M=Q)

PS 处理过程的设置,实现对数据的一致处理

mapminmax(X,FP) 参数为一个结构:FP.ymin, FP.ymax
mapminmax(‘apply’,X,PS) 对X根据PS中的配置做同样的规范化,返回Y
mapminmax(‘reverse’,Y,PS) 根据规范化后的Y及PS中的配置反归一化,返回X
mapminmax(‘dx’,X,Y,PS) returns the M x N x Q derivative of Y with respect to X.

mapminmax(‘dx’,X,[],PS) returns the derivative, less efficiently.

mapminmax(‘name’) 返回处理方法的名字
mapminmax(‘pdefaults’) 返回默认的处理参数的结构
mapminmax(‘pdesc’)返回处理参数的描述
mapminmax(‘pcheck’,FP) 如果任意一个参数非法返回错误信息
举例

下面是如何规范化一个矩阵的过程,这个规范化将每一行的最小值与最大值映射到区间[-1,1]

x1 = [1 2 4; 1 1 1; 3 2 2; 0 0 0] 《Simulink与信号处理》

[y1,PS] = mapminmax(x1) www.iLoveMatlab.cn

下一步,对新的值应用同样的处理方法 《Simulink与信号处理》

x2 = [5 2 3; 1 1 1; 6 7 3; 0 0 0] www.iLoveMatlab.cn

y2 = mapminmax(‘apply’,x2,PS) 《Simulink与信号处理》

将y1反归一化回x1

x1_again = mapminmax(‘reverse’,y1,PS)
算法

mapminmax假设x的值为实数,并且每一行的元素值不相等

y = (ymax – ymin)*(x – xmin)/(xmax – xmin) + ymin;

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/152314.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • mediumtext_【紧急求助】关于mediumtext类型数据的调用

    mediumtext_【紧急求助】关于mediumtext类型数据的调用你的位置:问答吧->PHP基础->问题详情【紧急求助】关于mediumtext类型数据的调用请问各位大大,我如何将mediumtext类型的数据调用输入textarea文本框中呢?主要的问题是mediumtext内没有回车完全可以正常调用,但一旦有回车就无法进行调用,文本框中输入不了任何数据!恳请各位大大不…

  • 基于STM32的RC522模块读写数据块以及电子钱包充值扣款系统的设计

    基于STM32的RC522模块读写数据块以及电子钱包充值扣款系统的设计前言本人也是正在学习单片机知识的萌新一枚,在这里记录下自己完成这个小设计的过程跟大家分享一下,也请大家指出我哪里还有不足可以改进的地方。秉着和大家一起学习进步发布了这篇文章STM32F103ZET6单片机我使用的单片机是正点原子版的STM32F1精英版,型号是ZET6。32系列的单片机功能比较完整,基本所有的小设计都可以使用32完成,而且现在市面上使用32系列的人也是不在少数,所以推荐大家使用这款单片机去完成各种实验和设计。…

  • centos 如何退出vim

    centos 如何退出vimHowtoexittheVimeditor?点击ESC进入“正常模式”,然后输入“:”,进入“命令模式”。此时屏幕的下方会出现一个冒号,你可以输入以下命令,并按“ENTER”执行::q,退出(:quit的缩写):q!,退出且不保存(:quit!的缩写):wq,保存并退出:wq!,保存并退出即使文件没有写入权限(强制保存退出):x,保存并退出(类似:wq,但是只有在有更改的情况下才保存):exit,保存并退出(和:x相同):qa,退出所有(:quitall的缩写)

  • 密码学与网络安全第七版部分课后习题答案[通俗易懂]

    密码学与网络安全第七版部分课后习题答案[通俗易懂]第0章序言1.课后题汇总(仅部分)第一章思考题:1、2、4、5第二章习题:10、12、16第三章习题:9第四章思考题:4、5、6第五章习题:11第六章习题:2、6第七章思考题:2、3、4习题:4、7、8第八章习题:2第九章思考题:5、6习题:2、3第十章习题:1、2第十一章思考题:1、2、3第十二章思考题:1、3、4、7第十三章思考题:…

  • 数据同步工具

    数据同步工具公司要搞数据平台,首当其冲的是把旧库的数据导入到新库中,原本各种数据库大部分都提供了导入导出的工具,但是数据存储到各个地方,mongdb,hbase,mysql,oracle等各种各样的不同数据库,同步起来头都大了因此最近使用了一些数据同步工具,记录下来:离线导入导出DataX阿里的Datax是比较优秀的产品,基于python,提供各种数据村塾的读写插件,多线程执行,使用起…

  • 05_Spring Cloud Alibaba Dubbo

    05_Spring Cloud Alibaba Dubbo

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号