数据分析中常见问题「建议收藏」

数据分析中常见问题「建议收藏」1. 如何检验数据是否服从正态分布?一、图示法(1)P-P图。以样本的累积频率作为横坐标,以安装正太分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点,如果服从正太分布,则样本点围绕第一象限的对角线分布。(2)Q-Q图。以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为指教坐标系的散点。如果资料服从正态分布,则样本点应该呈一条围绕第一象限对…

大家好,又见面了,我是你们的朋友全栈君。

1. 如何检验数据是否服从正态分布?

一、图示法

(1)P-P图。以样本的累积频率作为横坐标,以安装正太分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点,如果服从正太分布,则样本点围绕第一象限的对角线分布。

(2)Q-Q图。以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为指教坐标系的散点。如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线的直线。

(3)直方图。判断是否以钟形分布,同时可以选择输出正态性曲线

(4)箱式图。观测离群值和中位数

(5)茎叶图。类似于直方图,但实质不同。

二、计算法

(1)偏度系数和峰度系数

偏度计算公式:数据分析中常见问题「建议收藏」

峰度计算公式:数据分析中常见问题「建议收藏」

其中,g_{_{1}}表示偏度,g_{_{2}}表示峰度,通过计算g_{_{1}},g_{_{2}}及其标准误差\sigma_{g1}\sigma_{g2},再做U计算。当两种检验同时得出U<U_{0.05}=1.96,即p>0.05时,才可以认为该组服从正太分布。

2. 中心极限定理

中心极限定理,是指概率论中讨论随机变量序列部分和分布渐进于正太分布的一类定理。是指样本平均值约等于总体平均值。

随着n的增大,n个数的样本均值会趋近于正太分布,并且这个正太分布以u为均值,\sigma^{2}/n为方差。

相关结论:

结论1:用样本估计整体;

结论2:样本的平均值呈正态分布;

结论3:在无法知道总体的情况下,可以用样本估计整体。(除以n-1)

3. 过拟合问题

过拟合是指为了得到一致假设而使假设变得过度严格。

常见产生原因:

(1)建模样本选取有误,包括样本数量太少,选择方法错误,样本标签错误等,导致选取的样本的数据不足以代表预定的分类规则。

(2)样本噪音干扰过大,从而扰乱分类规则。

(3)假设的模型无法合理存在,或者说是假设成立的条件实际并不成立

(4)参数太多,使得模型复杂度过高。

(5)对于决策树模型,如果我们对于其生长没有合理的限制,其自由生长有可能使节点只包含单纯的事件数据(event)或非事件数据(no event),使其虽然可以完美匹配(拟合)训练数据,但是无法适应其他数据集。

(6)对于神经网络模型:a)对样本数据可能存在分类决策面不唯一,随着学习的进行,,BP算法使权值可能收敛过于复杂的决策面;b)权值学习迭代次数足够多(Overtraining),拟合了训练数据中的噪声和训练样例中没有代表性的特征。

常见解决办法:

(1)增加样本数据;

(2)选取合适的停止训练标准,使对机器的训练在合适的程度;

(3)保留验证数据集,对训练成果进行验证;

(4)获取额外数据进行交叉验证;

(5)正则化,即在进行目标函数或代价函数优化时,在目标函数或代价函数后面加上一个正则项,一般有L1正则与L2正则等。

(6)进行特征选择、特征降维

(7)控制模型的复杂度。如进行剪枝、控制树深度;增大分割平面间隔;

 

未完,,待继补充。。。

 

参考:https://wenku.baidu.com/view/29b3f4021fb91a37f111f18583d049649a660e31.html

https://blog.csdn.net/liubo187/article/details/77092729

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/136463.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • 区块链之P2P技术

    区块链之P2P技术P2P网络:Intel:通过系统间的直接交换达成计算机资源与信息的共享IBM:由若干互联协作的计算机构成并具备如下特性之一:系统依存于边缘化设备的主动协作;每个成员同时扮演客户端和服务器的角色;系统应用的用户能意识到彼此的存在而构成一个虚拟或真实的群体节点彼此对等,既作为服务和资源的提供者,又作为服务和资源的获取者区块链依靠P2P网络可扩展性、健壮性:P2P网络中的所有对等节点都可以提供带宽、存储空间以及计算能力等资源,随着更多节点的加入,系统整体的资源和服务能力也在同步地得到扩充。负载均衡

  • java属于什么语言_java是什么语言 ?是什么系统?

    java属于什么语言_java是什么语言 ?是什么系统?一开始了解计算机这个专业,大家都会经常性听到Java这一词语,那么大家有真正的了解什么是Java吗?Java是属于什么语言呢?JAVA语言,其实是混合型的一种语言,Java语言是一个支持网络计算的面向对象程序设计语言。Java语言吸收了Smalltalk语言和C++语言的优点。下面来介绍一些Java的主要特征:1)Java语言是简单的。Java语言的语法与C语言和C++语言相似,这让很多程序员可…

  • 红色故障码大全_图论的最短路问题

    红色故障码大全_图论的最短路问题原题链接战争中保持各个城市间的连通性非常重要。本题要求你编写一个报警程序,当失去一个城市导致国家被分裂为多个无法连通的区域时,就发出红色警报。注意:若该国本来就不完全连通,是分裂的k个区域,而失去一个城市并不改变其他城市之间的连通性,则不要发出警报。输入格式:输入在第一行给出两个整数N(0 < N ≤ 500)和M(≤ 5000),分别为城市个数(于是默认城市从0到N-1编号)和连接两城市的通路条数。随后M行,每行给出一条通路所连接的两个城市的编号,其间以1个空格分隔。在城市信息之后给出被攻占的

  • SQL删除多表关联数据的三种方法

    SQL删除多表关联数据的三种方法1.级联删除 createtablea(id varchar(20)primarykey,passwordvarchar(20)notnull)createtableb(idintidentity(1,1) primarykey,namevarchar(50)notnull,userIdvarchar(20),fo

  • 使用group by,having,count函数查询表中某字段相同内容的数据

    使用group by,having,count函数查询表中某字段相同内容的数据

  • python画图小代码

    python画图小代码奥运五环importturtlet=turtle.Pen()t.speed(1)#画笔颜色为蓝色t.pencolor(“blue”)#画笔宽度为8t.pensize(8)#画半径为60的圆,篮圈t.circle(60)#第一个环t.penup()t.goto(100,0)t.pendown()设置环的颜色t.pencolor(“black”)t.circle(60)#第二个环t.penup()t.goto(200,0)t.pendown()t.pen

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号