快捷搜索:  汽车  科技

r语言数据挖掘实战教程(R语言数据挖掘实践)

r语言数据挖掘实战教程(R语言数据挖掘实践)朴素贝叶斯的算法思路简单且容易理解。相比较而言,二次判别的适用面比线性判别函数要广。这是因为,在实际的模式识别问题中,各类别样本在特征空间中的分布往往比较复杂,因此往往无法用线性分类的方式得到令人满意的效果。这就必须使用非线性的分类方法,而二次判别函数就是一种常用的非线性判别函数,尤其是类域的形状接近二次超曲面体时效果更优。而如果使用下图的“投影轴”进行投影,所得到的“影子”就可以被“类别划分线”明显地区分开来,也就是得到了我们想要的判别结果。费希尔判别最重要的就是选择出适当的投影轴,对该投影轴方向上的要求是:保证投影后,使每一类之内的投影值所形成的类内离差尽可能小,而不同类之间的投影值所形成的类间离差尽可能大,即在该空间中有最佳的可分离性,以此获得较高的判别效果。具体的,对于线性判别,一般说来,可以先将样本点投影到以为控件,即直线上,若效果不明显,则可以考虑增加一个维度,即投影值二维空间

r语言数据挖掘实战教程(R语言数据挖掘实践)(1)

判别分析顾名思义,就是判断样本所属的类别,其依据是那些已知类别样本的属性信息。

这就像医生根据医学知识和行医经验,在脑中建立起各种病症的识别体系后,每来一位病人,医生通过查看各项症状就可判断这位患者到底生了什么病。最简单的,我们都知道,头疼脑热流鼻涕多事感冒发烧,这里的“头疼”、“脑热”、“流鼻涕”就是属性信息,而“感冒发烧”则是根据上述属性信息所判断出的病症类型。

理论的讲,判别分析就是根据已经掌握的每个类别若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则;在遇到新的样本点时,再根据已总结出来的判别公式和判别准则,盘判断该样本点所属的类别。

如上图所示,当类别I和类别II中的样本点都投影至图中的“原坐标轴”后,出现了部分样本点的“影子”重合的情况,这样就无法将分属于这两个类别的样本点区别开来。

而如果使用下图的“投影轴”进行投影,所得到的“影子”就可以被“类别划分线”明显地区分开来,也就是得到了我们想要的判别结果。

r语言数据挖掘实战教程(R语言数据挖掘实践)(2)

费希尔判别最重要的就是选择出适当的投影轴,对该投影轴方向上的要求是:保证投影后,使每一类之内的投影值所形成的类内离差尽可能小,而不同类之间的投影值所形成的类间离差尽可能大,即在该空间中有最佳的可分离性,以此获得较高的判别效果。

具体的,对于线性判别,一般说来,可以先将样本点投影到以为控件,即直线上,若效果不明显,则可以考虑增加一个维度,即投影值二维空间中,依次类推。而二次判别与线性判别的区别在于投影面的形状不同,二次判别使用若干二次曲面,而非直线或平面来将样本划分至相应的类别中。

相比较而言,二次判别的适用面比线性判别函数要广。这是因为,在实际的模式识别问题中,各类别样本在特征空间中的分布往往比较复杂,因此往往无法用线性分类的方式得到令人满意的效果。这就必须使用非线性的分类方法,而二次判别函数就是一种常用的非线性判别函数,尤其是类域的形状接近二次超曲面体时效果更优。

贝叶斯判别

朴素贝叶斯的算法思路简单且容易理解。

理论上来说,它就是根据已知的先验概率P(A|B),利用公式

r语言数据挖掘实战教程(R语言数据挖掘实践)(3)

求出后验概率P(B|A),即该样本属于某一类的概率,然后选择具有最大后验概率的类作为该样本所属的类。

通俗地讲,就是对于给出的待分类样本,求出在此样本出现条件下各个类别出现的概率,哪个最大,就认为此样本属于哪个类别。

就想我们在听以为素未谋面的历史人物的事迹时,起先我们对他的态度是中立的,但若听到一些他的善言善行,这一信息就会使我们将他判别为功臣的概率增大一些,当然这些信息也可能是片面的,也许他同时做了更多的恶事,但在没有其他可用信息的情况下,我们会选择条件概率最大的类别。

朴素贝叶斯的算法原理虽然“朴素”,但用起来却很有效,其优势在于不怕噪声和无关变量。而明显不足之处在于,它假设各特征之间是无关的,当这个条件成立时,朴素贝叶斯的判别正确率很高,但不幸的是,在现实中各个特征属性间往往并非独立,而是具有较强相关性的,这样就限制了朴素贝叶斯分类的能力。

距离判别

距离判别的基本思想,就是根据待判定样本与已知类别样本之间的距离远近做出判别。

具体的,即根据已知类别样本信息建立距离判别函数公式,再将各待判定样本的属性数据逐一代入式中计算,得到距离值,再据此将样本判入距离值最小的类别的样本簇。

K最近邻算法则是距离判别中使用最广泛的算法,它的思路十分易于理解,即如果一个样本在特征空间中的K个最相似/最近邻的样本中的大多数属于某一个类别,则该样本也属于这个类别。如下图所示:

r语言数据挖掘实战教程(R语言数据挖掘实践)(4)

图中有三个用实心点表示的待分类样本点,其周围分布着分别用圆形、三角形、正方形空心点表示出的三中已知类别的样本点。现在我们取K=5,即圈出与待分类样本点最相近的5个样本点,然后查看它们的类别。这5个点属于哪个类别的样本多,该未知样本就属于哪个类别。因而,从图中可以看出,这三个未知样本(从左至右)依次属于圆形、三角形、正方形类别。

K最近邻方法在进行判别时,由于其主要依靠周围有限邻近样本的信息,而不是靠判别类域的方法来确定所属类别,因此对于类域的交叉或重叠较多的待分样本集来说,该方法较其他方法要更为合适。

而有权重的K最近邻算法则在kNN基础上,对各已知类别样本根据其距离未知样本点的远近,赋予了不同的权重,即距离越近的权重越大。如此即可更充分地利用待分类样本点周围样本的信息,一般来说,加入权重后的kNN算法判别效果更优。

相关阅读:每天一点统计学——贝叶斯定理在生活中的应用、每天一点统计学——全概率公式和贝叶斯公式

猜您喜欢: