数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes

数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes

大家好,又见面了,我是全栈君,祝每个程序员都可以多学几门语言。

 

贝叶斯分类器

  贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。眼下研究较多的贝叶斯分类器主要有四种,各自是:Naive Bayes、TAN、BAN和GBN。
  贝叶斯网络是一个带有概率凝视的有向无环图,图中的每个结点均表示一个随机变量,图中两结点 间若存在着一条弧,则表示这两结点相相应的随机变量是概率相依的,反之则说明这两个随机变量是条件独立的。网络中随意一个结点X 均有一个对应的条件概率表(Conditional Probability Table,CPT),用以表示结点X 在其父结点取各可能值时的条件概率。若结点X 无父结点,则X 的CPT 为其先验概率分布。贝叶斯网络的结构及各结点的CPT 定义了网络中各变量的概率分布。
  贝叶斯分类器是用于分类的贝叶斯网络。该网络中应包括类结点C,当中C 的取值来自于类集合( c1 , c2 , … , cm),还包括一组结点X = ( X1 , X2 , … , Xn),表示用于分类的特征。对于贝叶斯网络分类器,若某一待分类的样本D,其分类特征值为x = ( x1 , x2 , … , x n) ,则样本D 属于类别ci 的概率P( C = ci | X1 = x1 , X2 = x 2 , … , Xn = x n) ,( i = 1 ,2 , … , m) 应满足下式:
  P( C = ci | X = x) = Max{ P( C = c1 | X = x) , P( C = c2 | X = x ) , … , P( C = cm | X = x ) }
  而由贝叶斯公式:
  P( C = ci | X = x) = P( X = x | C = ci) * P( C = ci) / P( X = x)
  当中,P( C = ci) 可由领域专家的经验得到,而P( X = x | C = ci) 和P( X = x) 的计算则较困难。
  应用贝叶斯网络分类器进行分类主要分成两阶段。第一阶段是贝叶斯网络分类器的学习,即从样本数 据中构造分类器,包含结构学习和CPT 学习;第二阶段是贝叶斯网络分类器的推理,即计算类结点的条件概率,对分类数据进行分类。这两个阶段的时间复杂性均取决于特征值间的依赖程度,甚至能够是 NP 全然问题,因而在实际应用中,往往须要对贝叶斯网络分类器进行简化。依据对特征值间不同关联程度的如果,能够得出各种贝叶斯分类器,Naive Bayes、TAN、BAN、GBN 就是当中较典型、研究较深入的贝叶斯分类器。

 

朴素贝叶斯

   分类是将一个未知样本分到几个预先已知类的过程。数据分类问题的解决是一个两步过程:第一步,建立一个模型,描写叙述预先的数据集或概念集。通过分析由属性 描写叙述的样本(或实例,对象等)来构造模型。假定每个样本都有一个预先定义的类,由一个被称为类标签的属性确定。为建立模型而被分析的数据元组形成训练数 据集,该步也称作有指导的学习。
  在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBC)。决策树模型通过构造树来解决分类问题。首先利用训练数据集来构造一棵决策树,一旦树建立起来,它就可为未知样本产生一个分类。在分 类问题中使用决策树模型有非常多的长处,决策树便于使用,并且高效;依据决策树能够非常easy地构造出规则,而规则通常易于解释和理解;决策树可非常好地扩展到大 型数据库中,同一时候它的大小独立于数据库的大小;决策树模型的另外一大长处就是能够对有很多属性的数据集构造决策树。决策树模型也有一些缺点,比方处理缺失 数据时的困难,过度拟合问题的出现,以及忽略数据集中属性之间的相关性等。
  和决策树模型相比,朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以 及稳定的分类效率。同一时候,NBC模型所需预计的參数非常少,对缺失数据不太敏感,算法也比較简单。理论上,NBC模型与其它分类方法相比具有最小的误差率。 可是实际上并不是总是如此,这是由于NBC模型如果属性之间相互独立,这个如果在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。在属 性个数比較多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型。而在属性相关性较小时,NBC模型的性能最为良好。
  朴素贝叶斯模型:
  —-
  Vmap=arg max P( Vj | a1,a2…an)
  Vj属于V集合
  当中Vmap是给定一个example,得到的最可能的目标值.
  当中a1…an是这个example里面的属性.
  这里面,Vmap目标值,就是后面计算得出的概率最大的一个.所以用max 来表示
  —-
  贝叶斯公式应用到 P( Vj | a1,a2…an)中.
  可得到 Vmap= arg max P(a1,a2…an | Vj ) P( Vj ) / P (a1,a2…an)
  又由于朴素贝叶斯分类器默认a1…an他们互相独立的.
  所以P(a1,a2…an)对于结果没实用处. [由于全部的概率都要除同一个东西之后再比較大小,最后结果也似乎影响不大]
  可得到Vmap= arg max P(a1,a2…an | Vj ) P( Vj )
  然后
  ”朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。换言之。该假定说明给定实力的目标值情况下。观察到联合的a1,a2…an的概率正好是对每一个单独属性的概率乘积: P(a1,a2…an | Vj ) = Π i P( ai| Vj )
  ….
  朴素贝叶斯分类器:Vnb =arg max P( Vj ) Π i P ( ai | Vj )
  ”
  Vnb = arg max P ( Vj )
  此处Vj ( yes | no ),相应天气的样例。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/118190.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • u盘拒绝访问怎么解决win11_u盘无权限访问

    u盘拒绝访问怎么解决win11_u盘无权限访问使用U盘启动盘安装系统时需要用到U盘,但是当我们将U盘插上电脑,结果出现拒绝访问的情形,别说是使用U盘启动盘重装系统了,连U盘基础的文件存储功能都无法使用。当U盘出现拒绝访问怎么解决呢?就此问题,下面小编分享u盘拒绝访问没有权限的原因和解决方法。U盘出现拒绝访问怎么解决1、U盘问题1)鼠标右键单击U盘盘符,在右键菜单中点击属性。2)在弹出的属性窗口中点击“工具”选项卡,再点击“开始检查”按钮,如下图所示:3)接着勾选“自动修复文件系统错误”和“扫描并尝试恢复坏扇区”并点击“开始”按钮(1)4)

  • android开发之做一个竖着的seekbar

    工作繁忙,总想有机会停下来喘口气,整理一下思路,做一些积累,但是这样的机会很少。要做android的界面,基础的要求是熟悉那些内置的组件(prebuilt componments),而有时候这些组件是不够用的,这时候我们就需要自己写一个新的,或者修改内置的。这就要求我们了解更多知识,比如各个View是怎么画出来的,UI上各种事件是如何分发和处理的等等。这些我都计划写出来和大家分享,网络上中文资料,

  • 用注册机注册Keil

    用注册机注册Keil注册前需用管理员权限打开软件,不然会提示ERRORR206:NOREGISTRYACCESS,ADMINISTRATIONRIGHTSREQUIRED。截至到2032年的最新注册机链接:https://pan.baidu.com/s/1kfVnA6FL_ZvHGpQPtZprTw提取码:tu2m

  • rpm卸载软件包时报依赖错误

    rpm卸载软件包时报依赖错误如下图所示:解决办法:加上–nodeps参数

  • AJAX培训第一讲:AJAX基础[通俗易懂]

    AJAX培训第一讲:AJAX基础[通俗易懂]======================================================注:本文源代码点此下载======================================================点击这里下载pdf文件。点击这里下载示例文件。点击这里下载视频文件。经过了5个小时的准备,10多个小时的录制和剪辑,我终于将第一次aj

  • 彩色图和深度图转点云

    彩色图和深度图转点云环境:windows10、VS2013、opencv2.49、openNi、PCL1.8opencv环境搭建参考https://www.cnblogs.com/cuteshongshong/p/4057193.htmlhttps://blog.csdn.net/u013105549/article/details/50493069PCL1.8+openNi搭建参考https://blog.cs…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号