概率论:假设检验-t检验、卡方检验和AD-Fuller test

概率论:假设检验-t检验、卡方检验和AD-Fuller testhttp://blog.csdn.net/pipisorry/article/details/51184556卡方检验Chi-Squarethechi-squaretestmeasuresdependencebetweenstochasticvariables,sousingthisfunction“weedsout”thefeaturesthatare…

大家好,又见面了,我是你们的朋友全栈君。

http://blog.csdn.net/pipisorry/article/details/51184556

卡方检验 Chi-Square

the chi-square test measures dependence between stochasticvariables, so using this function “weeds out” the features that are themost likely to be independent of class and therefore irrelevant forclassification.

卡方检验:卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。[百度百科-卡方检验]

标称数据的相关性分析,衡量 categorical attributes 相关性的。在特征选择中应该是检验某个单一特征和label之间的相关性,如果独立直接剔除该特征。从上看出有两个方面,一个是:卡法独立性检验,检验两个因素(各有两项或以上的分类)之间是否相互影响的问题,其零假设是两因素之间相互独立。另一个是:卡方拟合性检验,检验单个多项分类名义型变量各分类间的实际观测次数与理论次数之间是否一致的问题,其零假设是观测次数与理论次数之间无差异(就是因素和分类label之间相互独立)。

运用
    建立零假说(Null Hypothesis),即认为观测值与理论值的差异是由于随机误差所致;
    确定数据间的实际差异,即求出卡方值;
    如卡方值大于某特定概率标准(即显著性差异)下的理论值,则拒绝零假说,即实测值与理论值的差异在该显著性水平下是显著的。

[wikipedia]

概率论:假设检验-t检验、卡方检验和AD-Fuller test

概率论:假设检验-t检验、卡方检验和AD-Fuller test

对应分析

两个分类变量间的关系,无法直接使用常见的皮尔逊相关系数来表述(由于分类型数据的特点,很多基于均值、方差和标准差的分析方法就不太适用了),多采用频数统计、交叉表卡方检验等过程进行处理(面对变量个数少、分类类别少的简单局面,卡方检验和二分类逻辑回归还能够从容应对,一旦变量数量和变量类别多时,分析结果的解读就让人头痛了。),当分类变量的取值较多时,列联表频数的形式就变得更为复杂,很难从中归纳出变量间的关系。对应分析,则是解决分类变量间关系这个复杂问题的有力武器,也称为相应分析(在很多地方也被称为同质性分析或数量化方法),是一种多元统计分析方法,目的是在同时描述各变量分类间关系时,在一个低维度空间中对对应表中的两个分类变量进行关系的描述。

例如,研究全国34个省级行政区居民的收入水平情况,通过抽样收集数据,使用卡方检验能够很容易得出不同省级行政区居民的收入水平分布有显著性差异,但是无法得到北京市高收入居民比例高、云南低收入居民比例低这样具体的结果,也就是无法对分类变量各类别间的相关关系进行清楚展现。对应分析是解决类别相关关系展示很好的方法,它能够将分类交叉表转换为相应的对应分析图,从而使分类结果图形化、直观化。

对应分析原理

对应分析的实质就是将交叉表里面的频数数据作变换以后,展现在散点图上,从而将抽象的交叉表信息形象化。这个变换过程涉及到线性代数的内容,因此在这里就不做数学公式的推导了,草堂君在这里做个形象的解释。

我们以两个分类变量的情况来介绍对应分析的原理。学习过卡方检验的应该知道,卡方检验的实质是将实际的频数分析与期望频数作对比,如果差距很大,超过界限值,那么就可以认为组成交叉表的两个分类变量之间具有相关性。举个例子,某汽车生产企业的市场部收集了某款汽车的销售数据,制成频数交叉表:如果年龄变量与选购的汽车颜色之间没有相关关系,那么这些频数应该是相似的,没有巨大差异,反之,如果这两个分类变量间有相关关系,那么某个或某些单元格里的频数将显著大于其它单元格。

概率论:假设检验-t检验、卡方检验和AD-Fuller test

根据上表的数据,可以制作出由期望频数组成的交叉表,期望频数的计算公式为行频数和*列频数和/总频数(参考第一列的计算过程)。卡方检验就将上表的实际频数与下表的期望频数做逐个对比,算出卡方值和检验概率,从而判断两个变量是否有显著性差异。

概率论:假设检验-t检验、卡方检验和AD-Fuller test

对应分析承接上面两个表格的工作,它首先算出每个单元格的标准化残差,计算公式为:

概率论:假设检验-t检验、卡方检验和AD-Fuller test

从上面的公式来看,标准化残差包含了某个年龄段和某种汽车颜色的相关关系信息,相当于相关系数。说到这里,是否想到因子分析。是的,对应分析进行到这里,下一步也是提取标准化残差矩阵(交叉表)的公因子,然后将3个年龄群体和4个汽车颜色放入由公因子(新维度)组成的坐标空间内,通过它们之间的空间距离判断相关性强弱。

[SPSS分析技术:简单对应分析]

[SPSS统计分析案例:对应分析]

某小皮

 

 

 

T检验

T检验,亦称student t检验(Student’s t test),学生t检验(英语:Student’s t-test)是指虚无假设成立时的任一检定统计有学生t-分布的统计假说检定,属于母数统计。学生t检验常作为检验一群来自常态分配母体的独立样本之期望值的是否为某一实数,或是二群来自常态分配母体的独立样本之期望值的差是否为某一实数。

主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。常被应用于小样本判断的置信度。分为单总体检验和双总体检验。
t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。它与z检验、卡方检验并列。
t检验是戈斯特为了观测酿酒质量而发明的。

前提假设

大多数的t检定之统计量具有t = Z/k的形式,其中Z与k是已知资料的函数。Z通常被设计成对于对立假说有关的形式,而k是一个尺度参数使t服从于t分布。

在符合零假说的条件下,t检定有以下前题:

  • Z 服从标准正态分布
  • (n – 1)k2 服从自由度(n – 1)的卡方分布
  • Z与k互相独立

统计法比较

概率论:假设检验-t检验、卡方检验和AD-Fuller test

 

最常用t检验的情况

  • 单样本检验:检验一个正态分布的总体的均值是否在满足零假设的值之内,例如检验一群人的身高的平均是否符合170公分。
  • 双样本检验:其零假设为两个正态分布的总体的均值之差为某实数,例如检验二群人的身高之平均是否相等。这一检验通常被称为学生t检验。但更为严格地说,只有两个总体的方差是相等的情况下,才称为学生t检验;否则,有时被称为Welch检验。以上谈到的检验一般被称作“未配对”或“独立样本”t检验,我们特别是在两个被检验的样本没有重叠部分时用到这种检验方式。
  • “配对”或者“重复测量”t检验:检验同一统计量的两次测量值之间的差异是否为零。举例来说,我们测量一位病人接受治疗前和治疗后的肿瘤尺寸大小。如果治疗是有效的,我们可以推定多数病人接受治疗后,肿瘤尺寸变小了。
  • 检验一条回归线的斜率是否显著不为零。

 

 

单样本t检验

检验零假说为一群来自常态分配独立样本xi之母体期望值μ为μ0可利用以下统计量

配对样本t检验编辑

配对样本t检验可视为单样本t检验的扩展,不过检验的对象由一群来自常态分配独立样本更改为二群配对样本之观测值之差。

若二群配对样本x1i与x2i之差为di = x1i − x2i独立且来自常态分配,则di之母体期望值μ是否为μ0可利用以下统计量

独立双样本t检验

样本数及变异数相等

若二群独立样本x1i与x2i具有相同之样本数n,并且彼此独立及来自二个变异数相等的常态分配,则二群母体之期望值差μ1 – μ2是否为μ0可利用以下统计量

样本数不相等但变异数相等

若二群独立样本x1i与x2j具有不相同之样本数n1与n2,并且彼此独立及来自二个变异数相等的常态分配,则二群母体之期望值之差μ1 – μ2是否为μ0可利用以下统计量

变异数皆不相等

若二群独立样本x1i与x2j具有相等或不相同之样本数n1与n2,并且彼此独立及来自二个变异数不相等的常态分配,则二群母体之期望值之差μ1 – μ2是否为μ0可利用以下统计量

简单线性回归之斜率

在简单线性回归的模型

python t-test统计软件

scipy.stats.ttest_ind(a, b, axis=0, equal_var=True)

[scipy.stats.ttest_ind]
皮皮blog

t检验的一个示例

t检验步骤

以单总体t检验为例说明:
问题:难产儿出生体重
n=35,  概率论:假设检验-t检验、卡方检验和AD-Fuller test=3.42,S =0.40,一般婴儿出生体重μ0=3.30(大规模调查获得),问相同否?
解:
1.建立假设、确定检验水准α
H0:μ = μ0 (零假设,null hypothesis)
H1:μ ≠ μ0(备择假设, alternative hypothesis,)
双侧检验,检验水准:α=0.05
2.计算检验统计量Note: t统计量计算值为1.77, 自由度为34
3.查相应界值表,确定P值,下结论
查附表,t0.05 / 2(34) = 2.032   #双侧假设检验,即在alpha/2、自由度34下的t值
t < t0.05 / 2(34)       #拒绝域是{t>特定值},这样才说明|u-u0|>特定值,也就是u!=u0
P > 0.05
按α=0.05水准,不拒绝H0,两者的差别无统计学意义[wikipedia-學生t檢驗]
[Richard Mankiewicz, The Story of Mathematics (Princeton University Press), p.158.]

皮皮blog

 

Augmented Dickey–Fuller test 扩展迪基-福勒检验

用于测试平稳性

Dickey-Fuller Test: This is one of the statistical tests for checking stationarity. Here the null hypothesis is that the TS is non-stationary. The test results comprise of a Test Statistic and some Critical Valuesfor difference confidence levels. If the ‘Test Statistic’ is less than the ‘Critical Value’, we can reject the null hypothesis and say that the series is stationary. Refer this article for details.

Note: 可以看出这里的拒绝域是{u<u0},这样代表平稳,是拒绝域.

用于测试单根

The Augmented Dickey-Fuller test can be used to test for a unit root in a univariate process in the presence of serial correlation.

The null hypothesis of the Augmented Dickey-Fuller is that there is a unit root, with the alternative that there is no unit root. If the pvalue is above a critical size, then we cannot reject that there is a unit root.

[wikipedia: Augmented Dickey–Fuller test]

[python包:statsmodels.tsa.stattools.adfuller]

ADFuller平稳性测试示例

概率论:假设检验-t检验、卡方检验和AD-Fuller test

可以看到,这里最小拒绝H0的alpha值p-value太大,没法拒绝H0,所以This is not a stationary series(H0). 
当然同样可以通过the test statistic is way more than the critical values来判断不能拒绝H0(拒绝域是{u<u0},也就是u越小越可能拒绝,而这里u相对于u0相当大,只能接受)。Note that the signed values should be compared and not the absolute values.

[pandas小记:pandas时间序列分析和处理Timeseries ]

from: http://blog.csdn.net/pipisorry/article/details/51184556

ref: 

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/150936.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • C语言switch语句用法_c语言switch语句格式

    C语言switch语句用法_c语言switch语句格式1、switch语句基本用法C语言中,switch语句是一种多分支选择语句,在实际应用中,要在多种情况中选择一种情况,执行某一部分语句。其使用一般形式如下:switch(表达式){case常量表达式1:语句块1;break;case常量表达式2:语句块2;break;……case常量表达式m:语句块m;break;default:语句块n;break;}使用说明如下:程序执行时,首先计算表达式的值,与case后面的常量表达式值比较,若相等就执行对应部分的语

  • smtp服务器组件,本机搭建虚拟SMTP服务器教程[通俗易懂]

    smtp服务器组件,本机搭建虚拟SMTP服务器教程[通俗易懂]该楼层疑似违规已被系统折叠隐藏此楼查看此楼Windows2000用户安装设置服务端WindowsXP和2000本身就拥有构件SMTP服务器的功能,只是一般还没有安装。选择“控制面板→添加/删除程序→添加/删除Windows组件”,弹出“Windows组件向导”对话框,在其中双击“Internet信息服务(IIS)”项,就会打开详细选择项,选中“SMTPService”,按“确定”,插入…

  • 天气太冷不想出被窝?来DIY一个离线语音控制器[通俗易懂]

    天气太冷不想出被窝?来DIY一个离线语音控制器[通俗易懂]天气太冷不想出被窝?来DIY一个离线语音控制器点击上方“Embeded小飞哥”,选择“置顶/星标公众号”干货福利,第一时间送达!成就一番伟业的唯一途径就是热爱自己的事业。如果你还没能找到让自己热爱的事业,继续寻找,不要放弃。跟随自己的心,总有一天你会找到的。——乔布斯  你去关灯,你去,你去,。。我去。。小伙伴们有没有在天气寒冷时候,想去关灯,却离不开心爱的被窝的经历呢,有的话,跟着小飞哥一起来DIY一个离线语音控制器,有了它,我们

  • 一个经典例子让你彻彻底底理解java回调机制是什么_java实现回调函数

    一个经典例子让你彻彻底底理解java回调机制是什么_java实现回调函数以前不理解什么叫回调,天天听人家说加一个回调方法啥的,心里想我草,什么叫回调方法啊?然后自己就在网上找啊找啊找,找了很多也不是很明白,现在知道了,所谓回调:就是A类中调用B类中的某个方法C,然后B类中反过来调用A类中的方法D,D这个方法就叫回调方法,这样子说你是不是有点晕晕的,其实我刚开始也是这样不理解,看了人家说比较经典的回调方式:ClassA实现接口CallBackcallback

  • 对L1正则化和L2正则化的理解[通俗易懂]

    一、奥卡姆剃刀(Occam’srazor)原理:     在所有可能选择的模型中,我们应选择能够很好的解释数据,并且十分简单的模型。从贝叶斯的角度来看,正则项对应于模型的先验概率。可以假设复杂模型有较小的先验概率,简单模型有较大的先验概率。  二、正则化项     2.1、什么是正则化?   正则化是结构风险最小化策略的实现,在经验风险上加一个正则项或罚项,正则项一共有两种L1…

  • 【gTest】gtest简介及简单使用

    【gTest】gtest简介及简单使用【gTest】gtest简介及简单使用gtest是一个跨平台(Liunx、MacOSX、Windows、Cygwin、WindowsCEandSymbian)的C++测试框架,有google公司发布。gtest测试框架是在不同平台上为编写C++测试而生成的。从http://code.google.com/p/googletest/downloads/detail?name=gtest-1.7.0.zip&can=2&q=下载最新的gtest-1.7.0版本在Windows下编

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号