数据挖掘回归问题常用算法:常用数据挖掘算法从入门到精通 第五章
数据挖掘回归问题常用算法:常用数据挖掘算法从入门到精通 第五章联合概率:设A,B是两个随机事件,A和B同时发生的概率称为联合概率,记为:P(AB)关于概率方面的更多详细知识,可以查看作者之前的一篇文章《想要学人工智能,你必须得先懂点统计学(3)概率与概率分布》。分类贝叶斯方法是一种研究不确定性的推理方法。不确定性常用贝叶斯概率表示,它是一种主观概率。通常的经典概率代表事件的物理特性,是不随人意识变化的客观存在,而贝叶斯则是人的认识,是个人主观的估计,随个人主观认识的变化而变化。例如,一个投资者认为“购买某种股票能获得高收益”的概率是0.6,这里的0.6是投资者根据自己多年股票生意经验和当时股票行情综合而成的个人信念。贝叶斯概率是主观的,对其估计取决于先验知识的正确和后验知识的丰富和准确。因此贝叶斯概率常常可能随个人掌握信息的不同而发生变化。
本文主要讲述贝叶斯分类算法并附有详细的案例帮助大家理解。
分类分析分类分析是一种有监督的机器学习方法。主要解决的问题是利用训练样本集获得分类函数或分类模型。分类模型能很好的拟合训练样本集中属性集与类别之间的关系,也可以预测一个新样本属于哪一类。
第二章到第四章讲的聚类分析是不知道数据点的类别标签,需要自己自动分出类来,简单说就是一堆东西混到一起了,你要把它们区分开来谁和谁是一类的。
分类分析是本身已经知道每个数据点属于哪个类,它的任务是找到最佳的分类方法,也就是在这种分类方法下分类的分类效果是最佳的,比如,分类错误发生的概率最小,或在最小风险下进行分类决策等。
分类
贝叶斯概率—主观概率贝叶斯方法是一种研究不确定性的推理方法。不确定性常用贝叶斯概率表示,它是一种主观概率。通常的经典概率代表事件的物理特性,是不随人意识变化的客观存在,而贝叶斯则是人的认识,是个人主观的估计,随个人主观认识的变化而变化。例如,一个投资者认为“购买某种股票能获得高收益”的概率是0.6,这里的0.6是投资者根据自己多年股票生意经验和当时股票行情综合而成的个人信念。
贝叶斯概率是主观的,对其估计取决于先验知识的正确和后验知识的丰富和准确。因此贝叶斯概率常常可能随个人掌握信息的不同而发生变化。
概率基础知识关于概率方面的更多详细知识,可以查看作者之前的一篇文章《想要学人工智能,你必须得先懂点统计学(3)概率与概率分布》。
联合概率:设A,B是两个随机事件,A和B同时发生的概率称为联合概率,记为:P(AB)
条件概率:在B事件发生的条件下,A事件发生的概率称为条件概率,记为:P(A|B),P(A|B) = P(AB) / P(B)
乘法定理:P(AB) = P(B)P(A|B) = P(A)P(B|A)
-
先验概率 P(wi)
由样本的先验知识得到先验概率,可从训练集样本中估算出来。之所以称为“先验”是因为它不考虑任何其他方面的因素。
例如,两类10个训练样本,属于w1为2个,属于w2为8个,则先验概率P(w1) = 0.2,P(w2) = 0.8。
-
类条件概率 p(x|wi)
在wi类发生的条件下,样本x出现的概率。
-
后验概率P(wi|x)
对于某个样本 x 属于wi 类的概率 i=1 ··· c。
-
如果用先验概率P(wi) 来确定待分样本x的类别 依据显然是非常不充分的,须用类条件概率密度p(x|wi)来修正。
-
根据样本 x 的先验概率和类条件概率密度函数p(x|wi) 用Bayes公式重新修正模式样本所属类的概率,称为后验概率P(wi|x)
用Bayes决策理论分类时要求:
-
各类总体的概率分布是已知的
-
要决策的类别数c是一定的
-
Bayes公式,也称Bayes法则
贝叶斯公式
-
Bayes分类规则:用后验概率分类
贝叶斯分类规则
贝叶斯分类案例购买汽车的顾客训练集
-
计算先验概率和类条件概率
先验概率和类条件概率
-
计算后验概率
后验概率
因为P(是|X)>P(否|X),由此可见,对于样本X,朴素贝叶斯分类预测该顾客会购买汽车。