大家好,又见面了,我是你们的朋友全栈君。
常用数模知识点及方法总结
一、综合评价方法
根据各评价方法所依据的理论基础,现代综合评价方法大致分为以下四大类:
1、 专家评价方法
2、运筹学与其他数学方法
2.1、层次分析法(AHP)
2.2 、模糊综合评判法(FCE)
2.3 、数据包络分析法(DEA)
3 、基于统计和经济的方法
3.1 、TOPSIS评价法,优化可用熵权法
3.2 、主次分析法和因子分析法
主成分分析法通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。
因子分析法用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。
3.3 、费用效益法
4 、新型评价方法
4.1 、人工神经网络评价方法(ANN)
基于BP人工神经网络的综合评价方法具有运算速度快、问题求解效率高、自学习能力强、容错能力强等优点,较好地模拟了评价专家进行综合评价的过程,因而具有广阔的应用前景。
4.2 、灰色综合评价法
灰色系统理论主要是利用已知信息来确定系统的未知信息,使系统由“灰”变“白”。其最大特点是对样本量没有严格的要求,不要求服从任何分布。灰色关联度便是灰色系统理论应用的主要方面之一。
5、混合方法:组合评价法
二、插值和拟合(数值计算方法)
1、插值
1.1、牛顿插值
1.2、拉格朗日插值
1.3、埃米尔特插值
1.4、样条插值
2、拟合
2.1最小二乘拟合
2.2最佳逼近(最佳平方、最佳一致等)
三、假设检验(概率论与数理统计方法)
1、相关系数
1.1、皮尔逊相关系数
皮尔逊相关系数适用于呈正态分布的连续变量。对离群值敏感。通常会用t检验之类的方法来进行皮尔逊相关性系数检验。需要先确认这两个变量是线性相关的。
连续数据,正态分布,线性关系,均满足,用皮尔逊相关系数最恰当。若数据有定序,则用斯皮尔曼秩相关系数。
1.2、斯皮尔曼相关系数
另一种定义:等级之间的皮尔逊相关系数。
皮尔逊相关系数适用于线性关系,而斯皮尔曼相关系数适用于单调关系(线性关系的斜率是固定的)。皮尔逊相关系数使用元数据进行计算的,而斯皮尔曼相关系数是基于秩计算的。
1.3、肯德尔相关系数
肯德尔相关系数,又称肯德尔秩相关系数,它也是一种秩相关系数,不过,它的目标对象是有序的类别变量,比如名次、年龄段、肥胖等级(重度肥胖,中度肥胖、轻度肥胖、不肥胖)等。它可以度量两个有序变量之间单调关系强弱。
1.4、区别和选择
与皮尔逊相关系数相比,斯皮尔曼相关系数、肯德尔相关系数,是基于数据秩的相关系数。由于这些估计量操作的是秩,而非数据值,所以它们对离群值稳健, 并可以处理特定类型的非线性关系。多数情况下, 基于秩的估计量适用于小规模的数据集以及特定的假设检验。
(参考:
1、什么是相关系数
2、皮尔逊、斯皮尔曼、肯德尔相关系数介绍及其在特征选择中的应用)
2、正态分布均值假设检验方法
常用方法:t检验,Z检验,卡方检验,F检验等
3、正态分布检验
利用观测数据判断总体是否服从正态分布的检验称为正态性检验。是统计判决中重要的一种特殊的拟合优度假设检验。常见方法有:偏度和峰度,图示法,非参数检验。
常用:(参考:所有的正态性检验方法都在这里)
3.1偏度-峰度检验法
3.2图示法:通过直方图、P-P图、QQ图初步判断。
3.3非参数检验
柯尔莫戈洛夫-斯米诺夫检验(Kolmogorov-Smirnov test),简称K-S检验(适用于探索连续型随机变量的分布、相比之下适用于大样本(>50))
夏皮洛-威尔克检验(Shapiro—Wilk test),简称S-W检验。(小样本)
四、回归
(参考:超级干货 :一文读懂回归分析 )
1、线性回归、局部加权线性回归
2、多元回归(估计方法的分为普通、广义最小二乘法,广义允许在误差项存在异方差或自相关,注意拟合优度指标)
3、异方差、多重共线性、逐步回归
异方差:随机干扰项的方差不因自变量的不同而不同。检验是否存在,若存在,会导致参数估计无效、参数显著性检验失去意义、模型预测失效。
多重共线性:解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。共线性的存在会使得回归系数的最小二乘估计量误差较大。通过方差膨胀因子(Variance inflation factor)和容忍度(tolerance)来诊断多重共线性,VIF和容忍度两者互为倒数。解决:排除引起共线性的变量、差分法、lasso回归和岭回归
逐步回归分为:向前选择,向后选择,逐步选择。
(筛选并剔除引起多重共线性的变量,消除多余特征,降低预测误差。可能会产生新问题:内生性。缩减过多会出现过拟合)
(横截面数据容易出现异方差的问题;时间序列数据容易出现自相关的问题。)
4、岭回归(加入L2正则线性回归,在一般的线性回归最小化均方误差的基础上增加了一个参数w的L2范数的罚项,从而最小化罚项残差平方和,即在普通线性回归的基础上引入单位矩阵。)和lasso回归(加入 L1 正则化):在标准线性回归的基础上分别加入 L1 和 L2 正则化
(正则化:减少模型的过拟合的可能,L1倾向于学得稀疏的权重矩阵,L2倾向于学得更小更分散的权重)
五、图论
1、Dijkstras算法(有权图中最短路径问题)
2、Bellman–Ford algorithm算法(求解单源最短路径问题)
其优于D算法的方面是边的权值可以为负数、实现简单,缺点是时间复杂度过高。但算法可以进行若干种优化,提高了效率)、
3、floyd算法
(利用动态规划的思想寻找给定的加权图中多源点之间最短路径的算法,与Dijkstra算法类似)
六、分类
1、逻辑回归(LR):常用于二分类(参考:【机器学习】逻辑回归)
2、线性判别分析(LDA或称Fisher判别法)和多分类问题(运用“拆分”的策略,通过多个二分类学习器来解决多分类问题,即将多分类问题拆解为多个二分类问题,训练出多个二分类学习器,最后将多个分类结果进行集成得出结论。)
七、聚类
(参考:数据科学家需要了解的5种聚类算法)
1、K-means聚类算法
K-means聚类算法和K-means++算法
2、具有噪声的基于密度的聚类方法(DBSCAN)
3、Mean shift算法,又称均值漂移算法
4、EM算法
高斯混合模型+聚类期望最大化(EM)优化算法
5、系统(层次)聚类算法
八、时间序列分析
1、指数平滑方法
指数平滑法是以时间为序揭示其历史资料的变化规律,克服了移动平均预测法没有充分利用时间序列的全部数据的信息和对参与运算的N个数据等权看待的缺点,且过程清晰、计算便捷。指数平滑法主要分为一次指数平滑法和多次指数平滑法,针对于不同的时间序列,采取指数平滑法的次数也是不同的江西省GDP数据呈曲线状。
2、常见模型:
2.1、AR、MA、ARMA模型
2.2、ARIMA模型和SARIMA模型
(参考:AR、MA及ARMA模型)
2.3、ARCH模型和GARCH模型
ARCH模型(自回归条件异方差模型)和GARCH模型(广义ARCH模型,是ARCH模型的拓展)
3、灰色预测GM(1,1)(常用、少用)
4、神经网络相关方法
4.1、RNN-LSTM-GRU
RNN :处理序列数据 (一串相互依赖的数据流),每次都会将前一次的输出结果,带到下一次的隐藏层中,一起训练。缺点:短期记忆,无法处理很长的输入序列训练; RNN 需要投入极大的成本。
优化:LSTM(长短时记忆网络),保留较长序列数据中的重要信息。
GRU(在 LSTM 的模型上做了一些简化和调整)
九、预测
1、统计预测方法
1.1、短期预测
分解分析法(一次性的短期预测或在使用其他预测方法前消除季节变动的因素,只需序列的历史数据)
移动平均法(不带季节变动的反复预测,只需要因变量的历史数据,初次选择权数时很费时间)
指数平滑法(具有或不具有季节变动的反复预测,只需要因变量的历史数据,建立模型很费时)
自适应过滤法(适用于趋势型态的性质随时间而变化,而且没有季节变动的反复预测,只需要因变量的历史数据,,但制定并检查模型规格很费时)
平稳时间序列预测法(适用于任何序列的发展型态的一种高级预测方法,但计算过程复杂、繁琐)
干预分析模型预测法(历史数据及影响时间,)
1.2、短中期预测
线性回归预测法(最费时)
非线性回归预测法(多个模型试验)
灰色预测法(适用于时间序列的发展呈指数型趋势,根据历史数据)
状态空间模型和卡尔曼滤波(适用于各类时间序列的预测,根据历史数据建立状态空间模型)
1.3、中长期预测
趋势外推法(被预测项目的有关变量用时间表示时,用非线性回归,只需历史数据、费时)
2、机器学习方法
十、常见规划问题(lingo)
1、目标规划(GP)求解思路:加权系数、优先等级、有效解
2、非线性规划(约束\无约束)
3、动态规划(DP)
4、整数规划问题
十一、其它补充
1、灰色关联分析:通常可以运用此方法来分析各个因素对于结果的影响程度,也可以运用此方法解决随时间变化的综合评价类问题,其核心是按照一定规则确立随时间变化的母序列,把各个评估对象随时间的变化作为子序列,求各个子序列与母序列的相关程度,依照相关性大小得出结论。
2、常见机器学习方法
发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/128977.html原文链接:https://javaforall.cn
【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛
【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...