朴素贝叶斯分类名词解释(朴素贝叶斯分类)
朴素贝叶斯分类名词解释(朴素贝叶斯分类)如果事件A、B中一个事件的发生并不影响另一个事件发生的概率,称两个事件是相互独立的。即,II、事件的独立性设有事件A、B,条件概率记为P(B|A) 表示事件A发生前提下,事件B发生的概率。条件概率P(B|A)和事件原概率有如下关系:例 1、五个乒乓球(3个新的、2个旧的),每次取一个,无放回地取两次,求第1次取到新球的条件下第2次取到新球的概率。解、记,A="第1次取到新球"、 B="第2次取到新球"。第1次取到新球的条件下第2次取到新球的概率为,
朴素贝叶斯分类算法(Naive Bayes classifier)以贝叶斯定理为基础,故统称为贝叶斯分类。朴素贝叶斯算法简单高效,在处理分类问题上,是应该首先考虑的方法之一。
贝叶斯定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。
1、准备知识
I、条件概率
设有事件A、B,条件概率记为P(B|A) 表示事件A发生前提下,事件B发生的概率。条件概率P(B|A)和事件原概率有如下关系:
例 1、五个乒乓球(3个新的、2个旧的),每次取一个,无放回地取两次,求第1次取到新球的条件下第2次取到新球的概率。
解、记,A="第1次取到新球"、 B="第2次取到新球"。第1次取到新球的条件下第2次取到新球的概率为,
II、事件的独立性
如果事件A、B中一个事件的发生并不影响另一个事件发生的概率,称两个事件是相互独立的。即,
当两个事件相互独立时,
例 2、五个乒乓球(3个新的、2个旧的),每次取一个,有放回地取两次,求第1次取到新球的条件下第2次取到新球的概率。
解、由于有放回抽样,第1次抽到新球或旧球都对第2次抽到新球或旧球的概率没有影响。
记,A="第1次取到新球"; B="第2次取到新球"。第1次取到新球的条件下第2次取到新球的概率为,
III、全概公式
如果事件组A1 A2 … An满足:
a. A1 A2 … An互不相容(不能同时发生),且P( Ai ) > 0 (i = 1 2 … n);
b. A1 A2 … An=U (完备性)。
则对任一事件B皆有,
例 3、五个乒乓球(3个新的、2个旧的),每次取一个,无放回地取两次,求第2次取到新球的概率。
解、由于无放回抽样对第2次抽到新球或旧球的概率有影响,需要考虑不知第1次抽到是新球还是旧球。
记,A="第1次取到新球"; Ā="第1次取到旧球";B="第2次取到新球"。由于事件,
B = BA BĀ
且BA和BĀ互不相容。则有,
P(B) = P(BA) P(BĀ)
所以,第2次取到新球的概率为,
例 4、甲、乙、丙三人向同一飞机射击,每人射中的概率分别为0.4、0.5、0.7。又若一人射中,飞机坠毁的概率为0.2;若两人射中,飞机坠毁的概率为0.6;若三人射中,飞机坠毁的必坠毁。求飞机坠毁的概率。
解、记,B = "飞机坠毁";A0 = "三人皆射不中";A1 = "一人射中";A2 = "两人射中";A3 = "三人皆射中"。
显然,A0、A1、A2、A3是完备事件组(包括了所有可能发生的事件)。按加法和乘法概率公式有:
P(A0) = (1−0.4)×(1−0.5)×(1−0.7) = 0.6×0.5×0.3 = 0.09
P(A1) = 0.4×0.5×0.3 0.6×0.5×0.3 0.6×0.5×0.7 = 0.36
P(A2) = 0.6×0.5×0.7 0.4×0.5×0.7 0.4×0.5×0.3 = 0.41
P(A3) = 0.4×0.5×0.7 = 0.14P(A3) = 0.4×0.5×0.7 = 0.14
再由题意可知,
P(B|A0) = 0、P(B|A1) = 0.2、P(B|A2) = 0.6、P(B|A3) = 1
利用全概公式得,
IV、贝叶斯公式(逆概公式)
设A1 A2 … An为一完备事件组,则对任一事件B有,
例 5、甲、乙、丙三人向同一飞机射击,每人射中的概率分别为0.4、0.5、0.7。又若一人射中,飞机坠毁的概率为0.2;若两人射中,飞机坠毁的概率为0.6;若飞机被射中坠毁,求甲射中的的概率。
解、记B = "飞机坠毁";S = "甲击中",若飞机坠毁甲射中的的概率为,
V、朴素贝叶斯分类器公式
假设某样本集有n项特征(Feature),分别为F1、F2、⋯、Fn。现有判别特征C有m个类别(Category),分别为C1、C2、⋯、Cm。贝叶斯分类器就是计算给定特征F1、F2、⋯、Fn某一水平的判别特征C的概率,即,
这里用到了条件(多个条件)概率和逆概公式。由于 P(F1、F2、⋯、Fn)对于所有的类别都是相同的,可以省略。问题就变成了求分子P(F1、F2、⋯、Fn|C)×P(C)的最大值(最大发生概率)。
朴素贝叶斯分类器的一个重要特征是假设所有特征都彼此独立,因此,
上式等号右边的每一项,都可以从统计资料中得到,由此就可以计算出每个类别对应的概率,从而找出最大概率的那个类。虽然"所有特征彼此独立"这个假设在现实中不太可能成立,但是它可以大大简化计算,而且有研究表明对分类结果的准确性影响不大。
2、朴素贝叶斯概率模型
I、特征属性为离散值
现有离散型特征属性信息表(附表 - 1:购买计算机信息)如下,
No. |
Age |
Income |
Student |
Credit-rating |
Buy-computer |
1 |
≤30≤30 |
hight |
no |
fair |
no |
2 |
≤30≤30 |
hight |
no |
excellent |
no |
3 |
31-40 |
hight |
no |
fair |
yes |
4 |
>40 |
medium |
no |
fair |
yes |
5 |
>40 |
low |
yes |
fair |
yes |
6 |
>40 |
low |
yes |
excellent |
no |
7 |
31-40 |
low |
yes |
excellent |
yes |
8 |
≤30≤30 |
medium |
no |
fair |
no |
9 |
≤30≤30 |
low |
yes |
fair |
yes |
10 |
>40 |
medium |
yes |
fair |
yes |
11 |
≤30≤30 |
medium |
yes |
excellent |
yes |
12 |
31-40 |
medium |
no |
excellent |
yes |
13 |
31-40 |
hight |
yes |
fair |
yes |
14 |
>40 |
medium |
no |
excellent |
no |
当某人的数据信息如下:
Age≤30、Income = medium、Student = yes、Credit−rating = fair,
试用朴素贝叶斯分类器判断此人是否购买计算机(Buys-computer = ?)。
为了方便使用概率公式描述问题解决过程,特征属性信息表(附表 - 2)简化如下:
No. |
Age |
Income |
Student |
Credit |
Buy |
1 |
A |
H |
N |
F |
N |
2 |
A |
H |
N |
E |
N |
3 |
B |
H |
N |
F |
Y |
4 |
C |
M |
N |
F |
Y |
5 |
C |
L |
Y |
F |
Y |
6 |
C |
L |
Y |
E |
N |
7 |
B |
L |
Y |
E |
Y |
8 |
A |
M |
N |
F |
N |
9 |
A |
L |
Y |
F |
Y |
10 |
C |
M |
Y |
F |
Y |
11 |
A |
M |
Y |
E |
Y |
12 |
B |
M |
N |
E |
Y |
13 |
B |
H |
Y |
F |
Y |
14 |
C |
M |
N |
E |
N |
某人数据信息改为如下:
Age = A、Income = M、Student = Y、Credit = F,
试用朴素贝叶斯分类器判断此人是否购买计算机(Buy = ?)。
决策特征变量(Buy-computer)的每个类的先验概率为,
每个学习样本特征属性值对决策特征变量每个类(Buy = Y)的条件概率
每个学习样本特征属性值对决策特征变量每个类(Buy = N)的条件概率
已知某人信息为,
Age = A、Income = M、Student = Y、Credit = F,
设所有特征都彼此独立,由贝叶斯公式,购买计算机的概率公式(1)为,
该人不购买计算机的概率公式(2)为,
由于公式(1)和公式(2)分母相等,其值得大小由分子决定。公式(1)计算得,
公式(2)计算得,
最后,根据该人特征数据信息(Age = A、Income = M、Student = Y、Credit = F),判断为购买计算机。
II、特征属性为连续值
现有连续型特征属性信息表(附表 - 3)如下,
序号 |
身高(英尺) |
体重(磅) |
脚长(英尺) |
性别 |
1 |
6 |
180 |
12 |
男 |
2 |
5.92 |
190 |
11 |
男 |
3 |
5.58 |
170 |
12 |
男 |
4 |
5.92 |
165 |
10 |
男 |
5 |
5 |
100 |
6 |
女 |
6 |
5.5 |
150 |
8 |
女 |
7 |
5.42 |
130 |
7 |
女 |
8 |
5.75 |
150 |
9 |
女 |
当某人的数据信息如下:
身高 = 6 体重 = 130,脚长 = 8,试用朴素贝叶斯分类器判断此人的性别(性别 = ?)。
为了方便使用概率公式描述问题解决过程,特征属性信息表(附表 - 4)简化如下:
No. |
H |
W |
F |
S |
1 |
6 |
180 |
12 |
M |
2 |
5.92 |
190 |
11 |
M |
3 |
5.58 |
170 |
12 |
M |
4 |
5.92 |
165 |
10 |
M |
5 |
5 |
100 |
6 |
F |
6 |
5.5 |
150 |
8 |
F |
7 |
5.42 |
130 |
7 |
F |
8 |
5.75 |
150 |
9 |
F |
某人数据信息改为如下:
H = 6 W = 130,F = 8
试用朴素贝叶斯分类器判断此人的性别(性别 = ?)。
和离散型特征属性信息相比较,由于身高、体重、脚的尺寸都是连续变量,不能采用离散变量的方法计算概率。而且由于样本太少,所以也无法分成区间计算。可以假设男性和女性的身高、体重、脚掌都是正态分布,通过样本计算出均值和方差,也就是得到正态分布的密度函数。有了密度函数,就可以根据学习样本值算出密度函数的值。
分别计算出各特征属性值得均值和方差如下,
性别 |
均值(身高) |
方差(身高) |
均值(体重) |
方差(体重) |
均值(脚长) |
方差(脚长) |
男性 |
5.855 |
0.0350 |
176.25 |
122.9200 |
11.25 |
0.9167 |
女性 |
5.4175 |
0.0972 |
132.5 |
558.3300 |
7.5 |
1.6667 |
为计算概率方便,简化表示为,
S |
Hm |
Hv |
Wm |
Wv |
Fm |
Fv |
M |
5.855 |
0.0350 |
176.25 |
122.9200 |
11.25 |
0.9167 |
F |
5.4175 |
0.097225 |
132.5 |
558.3300 |
7.5 |
1.6667 |
根据贝叶斯分类器公式,由学习样本判断为男性的概率公式为,
P(H=6|S=M) × P(W=130|S=M) × P(F=8|S=M) × P(S=M)
判断为女性的概率公式为,
P(H=6|S=F) × P(W=130|S=F) × P(F=8|S=F) × P(S=F)
决策特征变量为离散型,每个类的先验概率为,
P(S=M) = P(S=F) = 4/8 = 0.5
性别为男性时,身高、体重和脚长的条件概率分别为,
性别为女性时,身高、体重和脚长的条件概率分别为,
由学习样本判断为男性的概率公式和概率值为,
由学习样本判断为女性的概率公式和概率值为,
该学习样本判断为女性(判断为女性的可能比判断为男性大的多)。
朴素贝叶斯分类是一种基于贝叶斯定理和特征独立假设的分类算法 它是一种简单而高效的分类方法,在文本分类和垃圾邮件过滤等领域广泛应用。
需要注意的是,在使用朴素贝叶斯分类算法时,数据的准备和预处理对于算法的性能和准确性非常重要。特征的选择和处理、数据的归一化或标准化等都可以影响分类结果。因此,在应用朴素贝叶斯分类算法时,需要仔细考虑数据预处理的步骤和参数调整的方法,以获得更好的分类效果。