快捷搜索:  汽车  科技

信息论熵与符号熵(信息熵信息增益)

信息论熵与符号熵(信息熵信息增益)首先定义时间xi的信息量为其发生概率对数的负数,记为L(xi),有: 其中 x 表示随机变量,随机变量的取值为(x1 x2 … xn) p(xi) )表示事件xi发生的概率,且有∑p(xi)=1。信息熵的单位为bit。需要引入消除不确定性的信息量越多,则信息熵越高,反之则越低。(2)公式信息熵的公式如下:

1、信息熵

(1)概念

一条信息的信息量大小和它的不确定性有直接的关系。

比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。

换种说法,熵是一种不确定性的度量。机器学习领域中,我们提到的熵基本都是香农熵即信息熵。

需要引入消除不确定性的信息量越多,则信息熵越高,反之则越低。

(2)公式

信息熵的公式如下:

信息论熵与符号熵(信息熵信息增益)(1)

其中 x 表示随机变量,随机变量的取值为(x1 x2 … xn) p(xi) )表示事件xi发生的概率,且有∑p(xi)=1。信息熵的单位为bit。

首先定义时间xi的信息量为其发生概率对数的负数,记为L(xi),有:

L(xi)=−log(p(xi))

由该定义可得,H(x)为随机变量X的平均信息量(即期望,期望等于试验中每次可能的结果乘以其结果概率的综合)

为什么L(xi) = −log( p(xi) )可以表示为事件xi的信息量?

事件xi的信息量大小和它发生的概率(不确定性)有直接的关系。比如说,要搞清楚一件非常不确定的事,或是一无所知的事情,就需要了解大量的信息。相反,如果对某件事已经有较多了解,我们不需要太多的信息就能把它搞清楚。即信息量函数应该与事件概率成单调递减关系。

同时,两个独立事件xi xj 满足p(xi xj) = p(xi)∗p(xj)信息量大小应等于各自信息量之和。那么同时符合以上要求的是I(xi)=−logp(xi)。

取log原因: p(xi xj)=p(xi)∗p(xj) info(xi xj)=info(xi) info(xj)

取负号原因: 信息量越高,不确定量度越高,概率越小,log(p(xi))越小,−log(p(xi))越大,即信息量越大。

2、信息增益(互信息)

(1)概念

熵:表示随机变量的不确定性。

条件熵:在一个条件下,随机变量的不确定性。

信息增益 = 熵 - 条件熵

换句话说,信息增益代表了在一个条件下,信息复杂度(不确定性)减少的程度。

(2)互信息

互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。

两个随机变量X Y的互信息,定义为X Y的联合分布和独立分布乘积的相对熵。

信息论熵与符号熵(信息熵信息增益)(2)

根据上述公式可知,X的熵H(X) 减去X和Y的互信息 I(X;Y) 之后,可以得到在Y给定的情况下X的熵H(X|Y)。

其中H(X)和H(Y) 是边缘熵,H(X|Y)和H(Y|X)是条件熵,而H(X Y)是X和Y的联合熵。注意到这组关系和并集、差集和交集的关系类似,用Venn图表示:

信息论熵与符号熵(信息熵信息增益)(3)

(3)两者区别

信息增益

直观的说,有了X作为预测y 的辅助,可以增加一些信息量,反过来讲,也就是降低了信息的不确定性,即降低了熵值。因此,可以得到信息增益的概念

信息论熵与符号熵(信息熵信息增益)(4)

互信息

如果不把X看做预测Y的特征,而是把X,Y看做成地位相等事件,可以看到信息增益的概念和互信息是一致的:

信息论熵与符号熵(信息熵信息增益)(5)

3、经验熵

根据给定的已知样本集,计算样本集的香农熵,就是经验熵。

比如,投硬币游戏,得到如下样本集:

正面:6次

反面:8次

则根据本次的样本集,得到样本集的香农熵就是经验熵:

4、信息增益比(增益率)

信息增益对于偏向于特征值很多的属性,而特征值很多的属性明显并不能提供泛化的分类能力,因此引入了信息增益比(增益率)的概念。

C4.5用的是信息增益率。C4.5算法不再是通过信息增益来选择决策属性。一个可以选择的度量标准是增益比率gain ratio(Quinlan 1986)。增益比率度量是用前面的增益度量Gain(S,A)和分裂信息度量SplitInformation(S,A)来共同定义的,如下所示:

信息论熵与符号熵(信息熵信息增益)(6)

其中,分裂信息度量被定义为(分裂信息用来衡量属性分裂数据的广度和均匀):

信息论熵与符号熵(信息熵信息增益)(7)

其中S1到Sc是c个值的属性A分割S而形成的c个样例子集。注意分裂信息实际上就是S关于属性A的各值的熵。这与我们前面对熵的使用不同,在那里我们只考虑S关于学习到的树要预测的目标属性的值的熵。

请注意,分裂信息项阻碍选择值为均匀分布的属性。例如,考虑一个含有n个样例的集合被属性A彻底分割(译注:分成n组,即一个样例一组)。这时分裂信息的值为log2n。相反,一个布尔属性B分割同样的n个实例,如果恰好平分两半,那么分裂信息是1。如果属性A和B产生同样的信息增益,那么根据增益比率度量,明显B会得分更高。

猜您喜欢: