大家好,又见面了,我是你们的朋友全栈君。
笔记内容来源:拉勾教育数据分析实战训练营
我是一个在教育留学行业8年的老兵,受疫情的影响留学行业受挫严重,让我也不得不积极寻找新的职业出路。虽然我本身是留学行业,但对数据分析一直有浓厚的兴趣,日常工作中也会做一些数据的复盘分析项目。加上我在留学行业对于各专业的通透了解,自2016年起,在各国新兴的专业–商业分析、数据科学都是基于大数据分析的专业,受到留学生的火爆欢迎,可见各行各业对于数据分析的人才缺口比较大,所以数据分析被我作为跨领域/转岗的首选。对于已到而立之年的我,这是一个重要的转折点,所以我要反复对比课程内容选择最好的,在7月中旬接触刚拉勾教育的小静老师后,她给我详细介绍了数据分析实战训练营训练营的情况,但我并没有在一开始就直接作出决定。除了拉勾教育之外,我还同时对比了另外几个同期要开设的数据分析训练营的课程,但对比完之后,基于以下几点,我最终付费报名了拉勾教育的数据分析实战训练营:
1、课程体系最全面:课程内容有分析方法论、分析方法、Excel、Mysql、Tableau、Quick BI、神策平台、Hive、统计学、Python、挖掘算法、Spss等,是目前我看到的最全面的。
2、课程体系把握行业人才需求痛点:拉勾主营业务是招聘,最明白企业的人才需求,基于此设计的课程体系是比较贴近实际需求的。通过5个月周期10个阶段,从现状统计到预测分析、从业务数据到编程工具处理复杂业务逻辑数据,实现用数据驱动业务,辅助决策,提升公司业绩。
3、课程学习模式灵活:大部分授课采用录播方式,学习完成后还有直播答疑。比直播打卡更容易安排自己的时间。
4、课程学习过程和结果有保障:学习成果作业检测+实时答疑+班主任督导,每个阶段每个模块的知识学完的作业可以锻炼实操。
5、项目实战内容丰富:也是我我最看好的一点,涵盖了在线教育、电商等多个领域多个项目实战。
6、就业辅导+优秀内推:拉勾平台是互联网行业招聘大本营,这是天然优势。
学习过程亲身感受
目前为止已经学习了近4个月的课程,已经学完Excel、数据分析思维、MySQL、Tableau、quickBI、神策、hive、统计学,每一阶段每一模块的知识都是在线自主学习,完成作业后解锁新课程,直播课会根据全体学员进度,收集疑问然后进行在线直播内容回顾和答疑以及作业讲解。每位讲师都很优秀,都有自己的授课特色所在,内容都是很干货的录好的内容,有些内容导师还会重新录制,不断迭代让学员达到更好的学习体验。作业批改、答疑导师西蒙(我接触最多的,经常麻烦他帮我解决问题)和班主任团子比较nice,认真负责,他们分别负责技术答疑和服务类的问题,平时有问题可以在微信群里问,可以单独聊也可以群里问,他们全天非工作日也会答疑。
这里面我印象最深刻的是SQL的授课老师应颠老师(也很遗憾只知道这位老师的名字),讲解由浅到深,思路非常清晰,对于代码的剖析过程有非常详细的注释,让我这样的小白能够很好的吸收知识。 最开始报名的时候说每周8-12小时足够,但现在看来我每周需要花更多的时间去攻克这些知识点,所以课程是性价比非常高了。每天松懈的时候一看到课表要求的进度,就不断促使我继续坚持学习按照进度来。
统计- 学习笔记归纳
一、卡方检验
假设检验的结论:ρ<0.05,则研究假设成立;反之,p>0.05则研究假设不成立.
卡方检验的重要性
适用于不知道总体参数的检验,是最常用的一种非参数检验。 当不适用参数检验法时,第一个想到的就是卡方检验。
卡方检验的应用场景
以SPSS自带数据telco.sav为例:
1、比例分布检验
检验一个变量中取值的比例分布是否均匀,或者是否符合设定比例分布。
原假设:变量的取值分布与均匀分布(或研究者设定的分布)没有显著差异
研究假设:变量的取值分布与均匀分布(或研究者设定的分布)有显著差异
p<0.05,则研究假设成立。
例:确定一袋糖豆是否包含相等比例的蓝色、棕色、绿色、橙色红色和黄色糖果。也可以检验一袋糖豆是否包含5%蓝色、30%棕色、10%绿色、20%橙色、15%红色和15%黄色的糖果
SPSS操作:分析-非参数检验-旧对话框-卡方
如果只检验前3种,下限1,上限3
2、二项式检验
检验一个变量取二分类两个值的概率是否符合设定的概率。
原假设:变量的第一个取值比例与设定比例没有显著差异
研究假设:变量的第一个取值比例与设定比例有显著差异
p<0.05,则研究假设成立。
例:当您掷出一枚硬币,正面朝上的概率为1/2。根据这一假设将硬币抛掷40次,并记录结果(正面朝上和反面朝上的情况)从二项式检验中,您可能发现,3/4的抛掷都是正面朝上,且观测的显著水平很小(0.0027)。这些结果表明,正面朝上的概率不可能等于1/2;硬币可能是有偏倚的。
SPSS操作:分析-非参数检验-旧对话框-二项
分割点:是将一个连续变量,选择一个值分割为大于该值和小于该值。
3、K-S检验
检验样本来自的总体中,一个变量的分布是否服从正态分布、均匀分布、泊松分布、指数分布
原假设:变量来自总体的分布与正态分布(或均匀分布等)没有显著差异,即变量在总体中呈现正态分布(或均匀分布等)
研究假设:变量来自总体的分布与正态分布(或均匀分布等)有显著差异,即变量在总体中不呈现正态分布(或均匀分布等)
p<0.05,则研究假设成立。
SPSS操作:分析-非参数检验-旧对话框-单样本K-S
4、游程检验
检验一个变量的两个取值出现顺序是否随机。两个值出现比例各占50%
检验场景:通常是检验随着时间变化而产生的两个数值,出现顺序是否随机。
原假设:变量两个值出现顺序和随机出现没有差异,即变量两个值出现是随机的
研究假设:变量两个值出现顺序不是随机的。
p<0.05,则研究假设成立。
SPSS操作:分析-非参数检验-旧对话框-游程
分割点可以选择中位数,平均值,或定制
5、独立样本非参数检验
独立样本:两组不同不重叠的样本,比如男性和女性在收入、年龄等等分布上是否有差异,即检验不同人群在特定变量取值上是否有差异
注意:分组变量是分类变量、比较变量是连续变量
原假设:两组来自总体的变量数据在分布上没有差异,即两组数据在该变量的取值上没有显著差异
研究假设:两组来自总体的变量数据在分布上有差异,即两组数据在该变量的取值上有显著差异
操作:分析-非参数检验-旧对话框-2个独立样本
6、配对样本非参数检验
配对样本:同一组人群在不同时间采集的两组或多组数据;或者同一组人群不同身体部位采集的两组或多组数据。
检验同一组人群在不同时间、不同部位采集的数据是否有差异。
注意:t1、t2,比较的变量必须是连续变量
原假设:来自总体的同一组人群的两组数据在分布上没有差异,即两组数据在该变量的取值上没有显著差异
研究假设:来自总体的同一组人群的两组数据在分布上有差异,即两组数据在该变量的取值上有显著差异
SPSS操作:分析-非参数检验-旧对话框-2个相关样本
7、交叉分析(列联表分析)
检验两个分类变量(定类和定序)是否存在相关性。
如果场景中需要对连续变量进行卡方检验,首先需要将连续变量转换为分类变量,如年龄分成70后、80后、90后、00后。.
连续变量转成分类变量的操作:转换-重新编码为不同变量,收入分为0-50、51、400、401+
如果两个变量都是定类变量,相关系数可通过卡方检验中“名义“里的四个相关系数;如果两个都是定序变量,则选择”有序”里的四个相关系数。
问:如果两个变量中,一个为定类变量,一个为定序变量,相关系数应该选哪个?
答:应该用“名义”中的四个相关系数。原因是定序变量可降级为定类变量,而定类变量不可以升为定序变量。
SPSS操作步骤:
结果解读
第一步:看卡方统计结果,根据P值判断两个变量是否存在相关性,如p<0.05,则说明两者存在显著相关性。
第二步:看相关系数,判断两者之间相关性到底有多大。0-0.2,较弱相关;0.2-0.4,弱相关;0.4-0.6,相关性一般:0.6-0.8,较强相关;0.8-1,极强相关。
第三步,看频次分布,具体分析两者存在什么样相关。
二、t检验
t检验,方差检验都是参数检验,需要知道总体的参数情况,参数检验的前提是服从正态分布
1、单样本t检验
用来检验样本中某个连续变量的均值与给定的总体均值是否存在差异
原假设:样本来自总体的该变量均值与给定均值之间没有显著差异
研究假设:样本来自总体的该变量均值与给定均值之间有显著差异I
当p<0.05, 则研究假设成立
用到的变量:一个连续变量
例:
1.周岁儿童的平均身高是否为75厘米
2.居民平均存(取)款金额是否为2000元
SPSS操作:分析-比较平均值-单样本t检验
2、独立样本t检验
用来检验两组独立样本在某个连续变量的均值是否有显著差异
原假设:两组独立样本来自的总体在该变量的均值上没有显著差异
研究假设:两组独立样本来自的总体在该变量的均值上有显著差异
用到的变量:一个连续因变量和一个分类自变量(如果是连续变量,也可以将连续变量进行分组得到一个分类变量)
方差齐性检验:
原假设:两组总体中的方差是相等的
研究假设:两组总体中的方差是不等的
当p<0.05,则研究假设成立,即两组总体中的方差是不等的,需要看第二行的t值检验结果。反之则看第一行的t值结果。
SPSS操作步骤:分析-比较平均值-独立样本t检验
3、配对样本t检验
用来检验同一组样本不同时间/部位/处理条件测量得到的两组数据均值是否存在差异
原假设:两组配对数据之间没有显著差异
研究假设:两组配对数据间有显著差异
变量:两个连续变量(其实是针对同一组人群不同时间/部位/处理条件测量的两组数据)
SPSS操作:分析-比较平均值-成对样本t检验
三、方差检验
变量:自变量既可以是分类也可以连续变量,因变量必须是连续变量
1、单因素方差检验
检验3组及以上人群在某个连续变量均值上是否存在差异,或某个分类变量对某个连续变量是否存在显著相关。
变量:因变量是一个,且为连续变量;自变量是一个,为分类变量
原假设:自变量与因变量之间不存在显著相关(不同人群之间在该连续变量的均值上没有显著差异)
研究假设:自变量与因变量之间存在显著相关(不同人群之间在该连续变量的均值上显著差异)
例:
1、考察不同学历是否对工资有显著影响
2、考察不同的推销策略是否对销售额产生显著影响
3、考察不同肥料对某农作物亩产量是否有显著差异
SPSS操作:分析-比较平均值-单因素 ANOVA检验
1)两两比较中根据方差齐性检验结果,来选择方差相等的比较结果或方差不等的检验结果
2)方差齐性检验:选项-方差齐性检验。当方差不齐时,则通过非参数检验中的K个独立样本检验法进行检验
方差检验基于平均值,P=0.001<0.05,说明变量各总体方差不相等
只能看不等方差的两两对比。如P=0.898>0.5, 原假设成立,高中毕业和高中未毕业在收入上没有显著差异
由于方差不齐,不能用方差检验,只能两两比较,但要看学历整体对收入有无差异,就用非参数检验方法,分析-非参数检验-旧对话框-K个独立样本
p<0.05, 研究假设成立,不同学历的五个独立样本在收入的分布上有显著差异
2、多因素方差检验
检验多个变量在某个连续变量均值上是否存在差异,或多个变量对某个连续变量是否存在显著相关。
变量:因变量是一个,且为连续变量;自变量是多个,既可以是分类变量也可以为连续变量
原假设:多个自变量与因变量之间不存在显著相关
研究假设:多个自变量与因变量之间存在显著相关
SPSS操作:分析-一般线性模型-单变量
如果自变量的取值未收集全,想推导所有的,就放入随机因子,取值收集全的变量或只想了解已知的取值影响,就放入固定因子
协变量:需要加以控制的,或是连续变量
全因子模型:既考虑所有自变量对于因变量直接效应,又考虑所有分类变量的交互作用对因变量的影响
定制模型:可根据研究者自身需求,定制需要考虑的对因变量的影响因素。比如只考虑自变量的直接效应,或部分自变量的交互作用
当自变量特别多时,尤其是分类自变量多时,且样本量不多时,应该使用定制模型。
学历、退休、婚姻、年龄对于收入有显著影响
四、多变量分析方法的选择
1、方法选择:
有因变量,则建立有监督模型
有监督模型具有两大通用目的:
1)分析哪些自变量对因变量存在显著影响作用
2)通过选择对因变量存在显著影响的自变量,建立预测因变量取值的预测模型。
方法选择:
1)因变量为连续变量(建立的模型又称为回归预測模型),自变量为连续变量时,可选择回归分析、方差分析;自变量为分类变量或分类+连续变量,可选择带虚拟变量的回归分析、联合分析、方差分析。
2)因变量为分类变量(建立的模型称为分类预测模型),当自变量为连续变量(或连续+分类变量)时,可选用判别分析、 LogistIc、 probit回归等;当自变量全部为分类变量时,可选用对数线性回归。
无因变量,则建立无监督模型
目的:1)对人进行分类,2)对变量/指标进行分类,3)分析变量与变量之间的测量关系
方法选择:
1)自变量为连续变量时,选择因子分析(对变量/指标分类)、聚类分析(对人分类、对变量/指标分类)
2)自变量为分类变量时,对应分析(对人分类)、多维尺度分析(对人分类)
其他分析
1)当模型中需要加入潜在变量(通过多个客观指标测量的抽象概念)、或需要考虑多个变量之间的因果关系时,可选择结构方程模型、路径模型、协方差分析等。
2)综合评价:通过多个指标对多个评价对象进行排名,可选择层次分析法、因子分析等
2、相关分析:
相关系数
相关系数是衡量两个变量之间变化趋势的相似性
不同变量类型的相关系数
- 两个变量都为连续变量,则可用 pearson相关系数
- 两个变量都为定序变量,则可用GMMA等相关系数
- 两个变量都为定类变量,则可用 LAMMDA等相关系数
- 一个变量为定类变量,一个变量为连续变量,可通过ETA系数来测量相关性
三种重要相关系数
1) pearson相关系数:参数检验,针对两个都是连续变量的数据进行相关性判断
2) spearman相关系数:非参数检验,针对两个都是定序变量
3) Kendals tau-b相关系数:非参数检验,针对两个都是定序变量
相关分析的假设检验
原假设:两个变量来自总体中不存在显著相关性
研究假设:两个变量来自总体中存在显著相关性
显著性检验目的:是用来判断两个变量在总体中是否存在相关性
相关系数的目的:是计算两个变量在样本数据中的相关性强弱
3、回归分析
皮尔逊相关系数与简单回归分析之间的区别是,相关分析不区分自变量和因变量,而回归分析一定区分解释变量和因变量。这是因为回归分析的目的是,根据预测变量的给定值来对因变量取值进行预测。
目的
当需要用一个数学表达式(模型)表示多个因素(原因)与另外一个因素(因素)之间关系时,可选用回归分析法。
应用
1)分析哪些自变量对因变量存在显著影响作用,R方值可以不要求大于0.8: 2)通过选择对因变量存在显著影响的自变量,建立预测因变量取值的预测模型,模型R方值必须要求大于等于0.8
但是,在人文社科领域,很多回归模型的R方值达不到0.8,也可以用来做预测。
回归分析分类:
- 因变量自变量都是定量变量的回归分析:普通回归分析
- 因变量是定量变量,自变量中有定性变量的回归分析:含有哑变量/ 虚拟变量的回归分析
- 因变量是定性变量的回归分析: Logistic回归分析
虚拟变量
原因:分类变量无法参与到回归模型中的加减乘除运算
操作:将原先的分类编码统一转换为0、1数值
回归分析前提
线性趋势:自发量和因发量的关系是线性的,如果不是,则不能采用线性回归奎分析。可以通过散点图来加以判断
独立性:因发量y的取值相互独立,之间没有联系。-反映到模型中要求残差闻相互独立,不存在自相关,否则应采用自回归模型分析
正态性:自发量的任何一个线性组合,因发量y均服从正态分布。-反映到模型中要求残差服从正态分布
方差齐性:就自发量的任何一个线性组合,因发量y的方差均相同。-反映到模型中要求残差的方差齐性。
回归分析建立步骤
1)选择变量 因变量:根据研究需求或问题推导出来 自变量:第一:前人的研究成果,第二:个人经验
2)确定自变量与因变量之间的关系
首先,挨个将自变量与因变量画散点图,判断每个自变量与因变量之间是线性还是非线性关系。 其次,通过卡方检验、T检验、F检验或相关分析法,挨个分析每个备选的自变量与因变量之间是否存在显著的相关性。将与因变量明显没有相关性的自变量剔除掉,不加入到后期模型中。
3)选择对应的线性方程或非线性方程,进行各项参数的计算
4)对模型进行全方位检验
多元线性回归SPSS操作
解决问题:分析影响人们家庭收入的因素有哪些,建立预测收入的回归方程
因变量:家庭收入
自变量:年龄、工作年限、性别、学历
操作:
首先,挨个将自变量与因变量画散点图,判断每个自变量与因变量之间是线性还是非线性关系。
图形-图表构建器
1、转换=重新编码为不同变量,定义旧值与新值的转换关系
2、分析-回归-线性,输入:把所有自变量全部放入模型中
3、统计-共线性诊断,残差-DW诊断检验
4、图-标准化残差图-直方图、正态概率图
5、结果解读:
1)拟合优度检验R方值F值,F值对应的概率P值小于0.05,研究假设成立,即至少有一个自变量对因变量存在显著影响
2)参数显著性检验 根据每个自变量的t值对应的概率P值是否小于0.05,如小于0.05,则研究假设成立,即该自变量对因变量存在显著影响。
根据下表得出,工作年龄和学历对收入显著影响,而年龄和性别没有。通过标准化系数来判断两者对影响程度大小,可知工作年限的影响明显大于学历。(标准化系数是-1-1之间)
工作年限对收入影响程度:在其他变量不变的情况下,工作年限每增加一个单位(1年),则因变量家庭收入平均6.279个单位
学历对收入的影响程度:Ed1=-51.042表示ed1代表的学历人群(高中以下)比对照的学历人群(大专)在因变量家庭收入上,平均低51.042个单位。
3)共线性检验 通常根据VIF>10,自变量之间存在共线性。
如果存在共线性,需要采用逐步回归法,剔除应该剔除的自变量。容差和VIF是导数关系
4)残差检验 DW(德宾-沃森)越接近2,表示残差不存在自相关性。DW在0~2或-2~0之间,表示残差存在自相关性。
需要注意,上述建立的模型不是最终模型,因为模型里面存在对因变量没有产生显著影响的自变量,产生了一定的噪音,需要在模型里面把噪音删除掉。
重新线性回归-步进
回归方程
先通过逐步回归法,将对因变量没有显著影响的自变量从模型中删除,得到干净的模型。
方程:y=34.601+6.021*工作年限-62.647*ed1-36.379*ed2
4、Logistic回归
应用场景:做分类预測模型,且为非参数检验方法。可以用于二分类、无序多分类、有序多分类
二元Logistic回归SPSS操作
分析-回归-二元Logistic
例:预测是否退休
分类变量转换为虚拟变量
结果解读
1)根据参数检验中的p<0.05,得到自变量对因变量存在显著影响,即年龄和学历3对退休有显著影响
2)根据Wad值的大小,判断自变量对因变量的影响程度排名,瓦尔德值越大,自变量对因变量的影响程度越高(学历需要看7.838)
3)优势比OR值即Exp(B)大于1,表示该自变量会增加因变量取1的概率;反之会降低因变量取1的概率。和B对应,正值对应Exp(B)大于1,负值对应Exp(B)小于1
4)连续自变量对因变量的影响程度:在其他变量不变的情况下,当年龄增加一个单位(1岁)时,优势比增加1.385倍 (年龄越大,退休概率越高)
5)分类自变量对因变量的影响程度:在其他变量不变的情况下,大专学历的优势比是研究生学历优势比的0.120倍(大专学历的概率高于研究生学历的退休概率)
6)LogistIc公式:
ln(p/(1-p))=-20.305-0.782*ed1-0.561*ed2-2.121*ed3-1.897*ed4-0.429*gender+0.326*age
(这不是最终模型)
7)计算出概率,p>0.5,预测退休
发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/145245.html原文链接:https://javaforall.cn
【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛
【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...