朴素贝叶斯分类算法应用:朴素贝叶斯分类原理
朴素贝叶斯分类算法应用:朴素贝叶斯分类原理这里面最核心的问题就是第3步,如何求这些条件概率。可以通过如下方法可以求出朴素贝叶斯分类的主要步骤描述如下那么,联立两式消去P(AB),就得到了这样,贝叶斯公式为我们打通了从P(A|B)到P(B|A)的通路。朴素贝叶斯分类的原理是这样的:对于给定的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大就认为此待分类项属于哪个类别。
朴素贝叶斯主要用于文本分类,在讲朴素贝叶斯分类原理之前,需要先了解分类问题的定义和贝叶斯公式。
一. 分类问题的定义已知集合C={y_1 y_2 ... y_n}和集合I={x_1 x_2 ... x_m},确定映射规则y=f(x),使得任意的x_i属于I,有且仅有一个y_j属于C使得y_j=f(x_i)成立。其中
- C叫做类别集合,集合C中的每一个元素是一个类别
- I叫做项集合,每一个元素是一个待分类的项
- f叫做分类器,分类算法的任务就是构造分类器f
朴素贝叶斯分类是基于贝叶斯公式的,表述如下
这个公式的证明也比较简单,由于
那么,联立两式消去P(AB),就得到了
这样,贝叶斯公式为我们打通了从P(A|B)到P(B|A)的通路。
三. 贝叶斯分类原理朴素贝叶斯分类的原理是这样的:对于给定的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大就认为此待分类项属于哪个类别。
朴素贝叶斯分类的主要步骤描述如下
- 设x={a_1 a_2 ... a_m}为一个待分类项,其中a_i为x的一个特征属性,一共有m个属性
- 类别集合为C={y_1 y_2 ... y_n}
- 分别计算P(y_1|x),P(y_2|x),...,P(y_n|x)
- 如果P(y_k|x)=max{P(y_1|x),P(y_2|x),...,P(y_n|x)},则待分类项x就属于类别y_k
这里面最核心的问题就是第3步,如何求这些条件概率。可以通过如下方法可以求出
1. 找到一个已知分类的待分类项集合,这个集合叫做训练样本集
2. 统计各个类别下各个特征属性的条件概率估计。即得到如下条件概率值
3. 如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导
分母对所有类别来说为常数,只需考虑分子的最大值即可,又因为各特征属性是条件独立的,所以
通过这种方式,我们就得到P(y_1|x),P(y_2|x),...,P(y_n|x)的值,进一步完成基于朴素贝叶斯的分类任务。
四. 细节的处理在上面第2步需要统计计算P(a|y)的值,根据特征的类型有不同的方法
若特征属性a为离散值,只要统计出训练样本中各个属性在每个类别中出现的频率即可用来估计P(a|y)的值。
若特征属性a为连续值,假设其值服从某个分布,例如高斯分布。只要计算出训练样本中类别中特征的均值和标准差,那么带入上式便可得到条件概率的估计值。比如特征属性为身高或体重等,就不是简单地统计出现次数来估计概率了,需要计算均值和标准差来估计。
另外如果遇到P(a|y)=0怎么办? 这是因为某个类别下某个特征属性没有出现,这种情况的出现会导致分类器的质量大大降低。为了解决这个问题,就引入了Laplace校准,核心思想就是如果某个类别下某个特征属性没有出现,那么就让它的计数器加1,即让它出现一次。这样就避免了P(a|y)=0的局面。