快捷搜索:  汽车  科技

朴素贝叶斯分类名词解释(朴素贝叶斯分类)

朴素贝叶斯分类名词解释(朴素贝叶斯分类)如果事件A、B中一个事件的发生并不影响另一个事件发生的概率,称两个事件是相互独立的。即,II、事件的独立性设有事件A、B,条件概率记为P(B|A) 表示事件A发生前提下,事件B发生的概率。条件概率P(B|A)和事件原概率有如下关系:例 1、五个乒乓球(3个新的、2个旧的),每次取一个,无放回地取两次,求第1次取到新球的条件下第2次取到新球的概率。解、记,A="第1次取到新球"、 B="第2次取到新球"。第1次取到新球的条件下第2次取到新球的概率为,

朴素贝叶斯分类算法(Naive Bayes classifier)以贝叶斯定理为基础,故统称为贝叶斯分类。朴素贝叶斯算法简单高效,在处理分类问题上,是应该首先考虑的方法之一。

贝叶斯定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)

1、准备知识

I、条件概率

设有事件AB,条件概率记为P(B|A) 表示事件A发生前提下,事件B发生的概率。条件概率P(B|A)和事件原概率有如下关系:

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(1)

例 1、五个乒乓球(3个新的、2个旧的),每次取一个,无放回地取两次,求第1次取到新球的条件下第2次取到新球的概率。

、记,A="第1次取到新球"、 B="第2次取到新球"。第1次取到新球的条件下第2次取到新球的概率为,

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(2)

II、事件的独立性

如果事件AB中一个事件的发生并不影响另一个事件发生的概率,称两个事件是相互独立的。即,

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(3)

当两个事件相互独立时,

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(4)

例 2、五个乒乓球(3个新的、2个旧的),每次取一个,有放回地取两次,求第1次取到新球的条件下第2次取到新球的概率。

、由于有放回抽样,第1次抽到新球或旧球都对第2次抽到新球或旧球的概率没有影响。

记,A="第1次取到新球"; B="第2次取到新球"。第1次取到新球的条件下第2次取到新球的概率为,

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(5)

III、全概公式

如果事件组A1 A2 … An满足:

a. A1 A2 … An互不相容(不能同时发生),且P( Ai ) > 0 (i = 1 2 … n)
b. A1 A2 … An=U (完备性)。

则对任一事件B皆有,

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(6)

例 3、五个乒乓球(3个新的、2个旧的),每次取一个,无放回地取两次,求第2次取到新球的概率。

、由于无放回抽样对第2次抽到新球或旧球的概率有影响,需要考虑不知第1次抽到是新球还是旧球。

记,A="第1次取到新球"; Ā="第1次取到旧球";B="第2次取到新球"。由于事件,

B = BA BĀ

BA互不相容。则有,

P(B) = P(BA) P(BĀ)

所以,第2次取到新球的概率为,

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(7)

例 4、甲、乙、丙三人向同一飞机射击,每人射中的概率分别为0.4、0.5、0.7。又若一人射中,飞机坠毁的概率为0.2;若两人射中,飞机坠毁的概率为0.6;若三人射中,飞机坠毁的必坠毁。求飞机坠毁的概率。

、记,B = "飞机坠毁";A0 = "三人皆射不中";A1 = "一人射中";A2 = "两人射中";A3 = "三人皆射中"。

显然,A0、A1、A2、A3是完备事件组(包括了所有可能发生的事件)。按加法和乘法概率公式有:

P(A0) = (1−0.4)×(1−0.5)×(1−0.7) = 0.6×0.5×0.3 = 0.09

P(A1) = 0.4×0.5×0.3 0.6×0.5×0.3 0.6×0.5×0.7 = 0.36

P(A2) = 0.6×0.5×0.7 0.4×0.5×0.7 0.4×0.5×0.3 = 0.41

P(A3) = 0.4×0.5×0.7 = 0.14P(A3) = 0.4×0.5×0.7 = 0.14

再由题意可知,

P(B|A0) = 0P(B|A1) = 0.2P(B|A2) = 0.6P(B|A3) = 1

利用全概公式得,

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(8)

IV、贝叶斯公式(逆概公式)

A1 A2 … An为一完备事件组,则对任一事件B有,

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(9)

例 5、甲、乙、丙三人向同一飞机射击,每人射中的概率分别为0.4、0.5、0.7。又若一人射中,飞机坠毁的概率为0.2;若两人射中,飞机坠毁的概率为0.6;若飞机被射中坠毁,求甲射中的的概率。

、记B = "飞机坠毁";S = "甲击中",若飞机坠毁甲射中的的概率为,

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(10)

V、朴素贝叶斯分类器公式

假设某样本集有n项特征(Feature),分别为F1、F2、⋯、Fn。现有判别特征Cm个类别(Category),分别为C1、C2、⋯、Cm。贝叶斯分类器就是计算给定特征F1、F2、⋯、Fn某一水平的判别特征C的概率,即,

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(11)

这里用到了条件(多个条件)概率和逆概公式。由于 P(F1、F2、⋯、Fn)对于所有的类别都是相同的,可以省略。问题就变成了求分子P(F1、F2、⋯、Fn|C)×P(C)的最大值(最大发生概率)。

朴素贝叶斯分类器的一个重要特征是假设所有特征都彼此独立,因此,

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(12)

上式等号右边的每一项,都可以从统计资料中得到,由此就可以计算出每个类别对应的概率,从而找出最大概率的那个类。虽然"所有特征彼此独立"这个假设在现实中不太可能成立,但是它可以大大简化计算,而且有研究表明对分类结果的准确性影响不大。

2、朴素贝叶斯概率模型

I、特征属性为离散值

现有离散型特征属性信息表(附表 - 1:购买计算机信息)如下,

No.

Age

Income

Student

Credit-rating

Buy-computer

1

≤30≤30

hight

no

fair

no

2

≤30≤30

hight

no

excellent

no

3

31-40

hight

no

fair

yes

4

>40

medium

no

fair

yes

5

>40

low

yes

fair

yes

6

>40

low

yes

excellent

no

7

31-40

low

yes

excellent

yes

8

≤30≤30

medium

no

fair

no

9

≤30≤30

low

yes

fair

yes

10

>40

medium

yes

fair

yes

11

≤30≤30

medium

yes

excellent

yes

12

31-40

medium

no

excellent

yes

13

31-40

hight

yes

fair

yes

14

>40

medium

no

excellent

no

当某人的数据信息如下:

Age≤30、Income = medium、Student = yes、Credit−rating = fair

试用朴素贝叶斯分类器判断此人是否购买计算机(Buys-computer = ?)。

为了方便使用概率公式描述问题解决过程,特征属性信息表(附表 - 2)简化如下:

No.

Age

Income

Student

Credit

Buy

1

A

H

N

F

N

2

A

H

N

E

N

3

B

H

N

F

Y

4

C

M

N

F

Y

5

C

L

Y

F

Y

6

C

L

Y

E

N

7

B

L

Y

E

Y

8

A

M

N

F

N

9

A

L

Y

F

Y

10

C

M

Y

F

Y

11

A

M

Y

E

Y

12

B

M

N

E

Y

13

B

H

Y

F

Y

14

C

M

N

E

N

某人数据信息改为如下:

Age = A、Income = M、Student = Y、Credit = F

试用朴素贝叶斯分类器判断此人是否购买计算机(Buy = ?)。

决策特征变量(Buy-computer)的每个类的先验概率为,

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(13)

每个学习样本特征属性值对决策特征变量每个类(Buy = Y)的条件概率

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(14)

每个学习样本特征属性值对决策特征变量每个类(Buy = N)的条件概率

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(15)

已知某人信息为,

Age = A、Income = M、Student = Y、Credit = F

设所有特征都彼此独立,由贝叶斯公式,购买计算机的概率公式(1)为,

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(16)

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(17)

该人不购买计算机的概率公式(2)为,

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(18)

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(19)

由于公式(1)和公式(2)分母相等,其值得大小由分子决定。公式(1)计算得,

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(20)

公式(2)计算得,

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(21)

最后,根据该人特征数据信息(Age = A、Income = M、Student = Y、Credit = F),判断为购买计算机。

II、特征属性为连续值

现有连续型特征属性信息表(附表 - 3)如下,

序号

身高(英尺)

体重(磅)

脚长(英尺)

性别

1

6

180

12

2

5.92

190

11

3

5.58

170

12

4

5.92

165

10

5

5

100

6

6

5.5

150

8

7

5.42

130

7

8

5.75

150

9

当某人的数据信息如下:

身高 = 6 体重 = 130,脚长 = 8,试用朴素贝叶斯分类器判断此人的性别(性别 = ?)。

为了方便使用概率公式描述问题解决过程,特征属性信息表(附表 - 4)简化如下:

No.

H

W

F

S

1

6

180

12

M

2

5.92

190

11

M

3

5.58

170

12

M

4

5.92

165

10

M

5

5

100

6

F

6

5.5

150

8

F

7

5.42

130

7

F

8

5.75

150

9

F

某人数据信息改为如下:

H = 6 W = 130,F = 8

试用朴素贝叶斯分类器判断此人的性别(性别 = ?)。

和离散型特征属性信息相比较,由于身高、体重、脚的尺寸都是连续变量,不能采用离散变量的方法计算概率。而且由于样本太少,所以也无法分成区间计算。可以假设男性和女性的身高、体重、脚掌都是正态分布,通过样本计算出均值和方差,也就是得到正态分布的密度函数。有了密度函数,就可以根据学习样本值算出密度函数的值。

分别计算出各特征属性值得均值和方差如下,

性别

均值(身高)

方差(身高)

均值(体重)

方差(体重)

均值(脚长)

方差(脚长)

男性

5.855

0.0350

176.25

122.9200

11.25

0.9167

女性

5.4175

0.0972

132.5

558.3300

7.5

1.6667

为计算概率方便,简化表示为,

S

Hm

Hv

Wm

Wv

Fm

Fv

M

5.855

0.0350

176.25

122.9200

11.25

0.9167

F

5.4175

0.097225

132.5

558.3300

7.5

1.6667

根据贝叶斯分类器公式,由学习样本判断为男性的概率公式为,

P(H=6|S=M) × P(W=130|S=M) × P(F=8|S=M) × P(S=M)

判断为女性的概率公式为,

P(H=6|S=F) × P(W=130|S=F) × P(F=8|S=F) × P(S=F)

决策特征变量为离散型,每个类的先验概率为,

P(S=M) = P(S=F) = 4/8 = 0.5

性别为男性时,身高、体重和脚长的条件概率分别为,

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(22)

性别为女性时,身高、体重和脚长的条件概率分别为,

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(23)

由学习样本判断为男性的概率公式和概率值为,

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(24)

由学习样本判断为女性的概率公式和概率值为,

朴素贝叶斯分类名词解释(朴素贝叶斯分类)(25)

该学习样本判断为女性(判断为女性的可能比判断为男性大的多)。

朴素贝叶斯分类是一种基于贝叶斯定理和特征独立假设的分类算法 它是一种简单而高效的分类方法,在文本分类和垃圾邮件过滤等领域广泛应用。

需要注意的是,在使用朴素贝叶斯分类算法时,数据的准备和预处理对于算法的性能和准确性非常重要。特征的选择和处理、数据的归一化或标准化等都可以影响分类结果。因此,在应用朴素贝叶斯分类算法时,需要仔细考虑数据预处理的步骤和参数调整的方法,以获得更好的分类效果。

猜您喜欢: