分类变量的卡方检验(python实现&SPSS实现)「建议收藏」

分类变量的卡方检验(python实现&SPSS实现)「建议收藏」卡方介绍卡方检验是针对自变量和因变量都是分类数据,也就是说带有属性的数据;而单因素方差分析是自变量是分类数据,因变量是连续型的数据。还有一点:方差分析是参数检验,而卡方检验是属于非参数检验。卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小:卡方值越大,偏差越大,越趋于不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。案例介绍本次实验是研究聚类结果和标签DR的关系,即检验我们的聚类有没有意义。

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

卡方介绍

卡方检验是针对自变量和因变量都是分类数据,也就是说带有属性的数据;而单因素方差分析是自变量是分类数据,因变量是连续型的数据。还有一点:方差分析是参数检验,而卡方检验是属于非参数检验。

卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小:卡方值越大,偏差越大,越趋于不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。

案例介绍

本次实验是研究聚类结果和标签DR的关系,即检验我们的聚类有没有意义。标签是0、1区分,聚类是0、1、2区分的
在这里插入图片描述
首先我们需要检查他们的交叉表,即
在这里插入图片描述

然后我们通过这个表看不出聚类结果的簇间患病差异性大小,因此采用卡方检验,首先做出假设:
在这里插入图片描述
然后计算理论值:
示例:比如cluster0&DR=0的理论值是:sum(cluster0)*sum(DR=0)/总数
在这里插入图片描述
然后通过卡方的公式:
在这里插入图片描述
A是实际值,T是理论值,

再计算卡方的 自由度 v:

						v=(行数-1)(列数-1)=(2-1)(3-1) = 2

最后根据计算结果查表即可。
在这里插入图片描述
卡方临界值 为 (一般取 p=0.05),因此对应表中的结果是5.99,我们的程序结果:
在这里插入图片描述

22.6>5.99,因此拒绝0假设,即两个因素之间存在联系。

python实现

程序示例如下:

# -*- encoding: utf-8 -*-
""" @Modify Time 2021/6/26 15:44 @Author Tunan @Filename test1.py @Desciption """
from scipy.stats import chi2_contingency


class CHISQUARE:
    def __init__(self, d0, d1):
        self.d0 = d0
        self.d1 = d1

    def get_tabel(self):
        dd0 = []
        dd1 = []
        y0 = sum(self.d0)
        y1 = sum(self.d1)
        x0 = self.d0[0] + self.d1[0]
        x1 = self.d0[1] + self.d1[1]
        x2 = self.d0[2] + self.d1[2]
        total = y0+y1

        dd0.append(x0 * y0 / total)
        dd0.append(x1 * y0 / total)
        dd0.append(x2 * y0 / total)
        dd1.append(x0 * y1 / total)
        dd1.append(x1 * y1 / total)
        dd1.append(x2 * y1 / total)

        return dd0, dd1

    def get_classification(self):
        print('=======================================')
        print('实际频率 cluster0 cluster1 cluster2')
        # d0, d1 = [93, 83, 143], [143, 45, 131]
        print("DR=0 %(dd0)d %(dd1)d %(dd2)d" % { 
   'dd0': self.d0[0], 'dd1': self.d0[1], 'dd2': self.d0[2]})
        print("DR=1 %(dd0)d %(dd1)d %(dd2)d" % { 
   'dd0': self.d1[0], 'dd1': self.d1[1], 'dd2': self.d1[2]})
        print('=======================================')

        print('理论频率 cluster0 cluster1 cluster2')
        dd0, dd1 = self.get_tabel()
        print("DR=0 %(dd0)d %(dd1)d %(dd2)d" % { 
   'dd0': dd0[0], 'dd1': dd0[1], 'dd2': dd0[2]})
        print("DR=1 %(dd0)d %(dd1)d %(dd2)d" % { 
   'dd0': dd1[0], 'dd1': dd1[1], 'dd2': dd1[2]})
        print('=======================================')
        x = [self.d0, self.d1]
        chi2, p, df, expected = chi2_contingency(x)  # 卡方值、P值、自由度、理论值
        print('卡方值:χ2 = %s' % chi2)
        print('p值:p-value = %s' % p)
        print('自由度:v = %s' % df)


if __name__ == "__main__":
    y = [95, 90, 134]
    y_pred = [143, 48, 128]
    chi = CHISQUARE(y, y_pred)
    chi.get_classification()

SPSS实现

第一步:
在这里插入图片描述

第二步:

选择你要比较的因素,分别加入行和列中:
在这里插入图片描述
第三步:
在统计选显卡中,选择卡方检验
在这里插入图片描述
第四步,点击确定,分析结果:
在这里插入图片描述
常用的是皮尔逊卡方,他的显著性远小于0.05,因此拒绝原假设,与我们程序分析结果一样。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/179198.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • BeanCopier_protobuf的简单使用

    BeanCopier_protobuf的简单使用BeanCopier的简单使用cglib包下的一个类.简单栗子//创建实例.BeanCopiercopier=BeanCopier.create(source.getClass(),target.getClass(),false);//Copy操作copier.copy(person1,person2,null);注意到:第三个参数userConve…

  • 大数据与互联网的关系

    大数据与互联网的关系

  • ValidateRequest

    ValidateRequestASP.Net1.1后引入了对提交表单自动检查是否存在XSS(跨站脚本攻击)的能力。当用户试图用之类的输入影响页面返回结果的时候,ASP.Net的引擎会引发一个HttpRequestValidationExceptioin。默认情况下会返回如下文字的页面:   这是ASP.Net提供的一个很重要的安全特性。因为很多程序员对安全没有概念,甚至都不知道XSS这种攻击的存在,知道主动

  • idea 激活码2021 3月最新注册码

    idea 激活码2021 3月最新注册码,https://javaforall.cn/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

  • GBDT算法原理_boosting算法

    GBDT算法原理_boosting算法本文对GBDT算法原理进行介绍,从机器学习的关键元素出发,一步一步推导出GBDT算法背后的理论基础,读者可以从这个过程中了解到GBDT算法的来龙去脉。对于该算法的工程实现,本文也有较好的指导意义,实际上对机器学习关键概念元素的区分对应了软件工程中的“开放封闭原则”的思想,基于此思想的实现将会具有很好的模块独立性和扩展性。

    2022年10月12日
  • python中codecs模块_python自然语言编码转换模块codecs介绍

    python对多国语言的处理是支持的很好的,它可以处理现在任意编码的字符,这里深入的研究一下python对多种不同语言的处理。有一点需要清楚的是,当python要做编码转换的时候,会借助于内部的编码,转换过程是这样的:原有编码->内部编码->目的编码python的内部是使用unicode来处理的,但是unicode的使用需要考虑的是它的编码格式有两种,一是UCS-2,它一共有6…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号