信息论熵与符号熵(信息熵信息增益)
信息论熵与符号熵(信息熵信息增益)首先定义时间xi的信息量为其发生概率对数的负数,记为L(xi),有: 其中 x 表示随机变量,随机变量的取值为(x1 x2 … xn) p(xi) )表示事件xi发生的概率,且有∑p(xi)=1。信息熵的单位为bit。需要引入消除不确定性的信息量越多,则信息熵越高,反之则越低。(2)公式信息熵的公式如下:
1、信息熵(1)概念
一条信息的信息量大小和它的不确定性有直接的关系。
比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。
换种说法,熵是一种不确定性的度量。机器学习领域中,我们提到的熵基本都是香农熵即信息熵。
需要引入消除不确定性的信息量越多,则信息熵越高,反之则越低。
(2)公式
信息熵的公式如下:
其中 x 表示随机变量,随机变量的取值为(x1 x2 … xn) p(xi) )表示事件xi发生的概率,且有∑p(xi)=1。信息熵的单位为bit。
首先定义时间xi的信息量为其发生概率对数的负数,记为L(xi),有:
L(xi)=−log(p(xi))
由该定义可得,H(x)为随机变量X的平均信息量(即期望,期望等于试验中每次可能的结果乘以其结果概率的综合)
为什么L(xi) = −log( p(xi) )可以表示为事件xi的信息量?
事件xi的信息量大小和它发生的概率(不确定性)有直接的关系。比如说,要搞清楚一件非常不确定的事,或是一无所知的事情,就需要了解大量的信息。相反,如果对某件事已经有较多了解,我们不需要太多的信息就能把它搞清楚。即信息量函数应该与事件概率成单调递减关系。
同时,两个独立事件xi xj 满足p(xi xj) = p(xi)∗p(xj)信息量大小应等于各自信息量之和。那么同时符合以上要求的是I(xi)=−logp(xi)。
取log原因: p(xi xj)=p(xi)∗p(xj) info(xi xj)=info(xi) info(xj)
取负号原因: 信息量越高,不确定量度越高,概率越小,log(p(xi))越小,−log(p(xi))越大,即信息量越大。
2、信息增益(互信息)(1)概念
熵:表示随机变量的不确定性。
条件熵:在一个条件下,随机变量的不确定性。
信息增益 = 熵 - 条件熵
换句话说,信息增益代表了在一个条件下,信息复杂度(不确定性)减少的程度。
(2)互信息
互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。
两个随机变量X Y的互信息,定义为X Y的联合分布和独立分布乘积的相对熵。
根据上述公式可知,X的熵H(X) 减去X和Y的互信息 I(X;Y) 之后,可以得到在Y给定的情况下X的熵H(X|Y)。
其中H(X)和H(Y) 是边缘熵,H(X|Y)和H(Y|X)是条件熵,而H(X Y)是X和Y的联合熵。注意到这组关系和并集、差集和交集的关系类似,用Venn图表示:
(3)两者区别
信息增益
直观的说,有了X作为预测y 的辅助,可以增加一些信息量,反过来讲,也就是降低了信息的不确定性,即降低了熵值。因此,可以得到信息增益的概念
互信息
如果不把X看做预测Y的特征,而是把X,Y看做成地位相等事件,可以看到信息增益的概念和互信息是一致的:
3、经验熵根据给定的已知样本集,计算样本集的香农熵,就是经验熵。
比如,投硬币游戏,得到如下样本集:
正面:6次
反面:8次
则根据本次的样本集,得到样本集的香农熵就是经验熵:
4、信息增益比(增益率)信息增益对于偏向于特征值很多的属性,而特征值很多的属性明显并不能提供泛化的分类能力,因此引入了信息增益比(增益率)的概念。
C4.5用的是信息增益率。C4.5算法不再是通过信息增益来选择决策属性。一个可以选择的度量标准是增益比率gain ratio(Quinlan 1986)。增益比率度量是用前面的增益度量Gain(S,A)和分裂信息度量SplitInformation(S,A)来共同定义的,如下所示:
其中,分裂信息度量被定义为(分裂信息用来衡量属性分裂数据的广度和均匀):
其中S1到Sc是c个值的属性A分割S而形成的c个样例子集。注意分裂信息实际上就是S关于属性A的各值的熵。这与我们前面对熵的使用不同,在那里我们只考虑S关于学习到的树要预测的目标属性的值的熵。
请注意,分裂信息项阻碍选择值为均匀分布的属性。例如,考虑一个含有n个样例的集合被属性A彻底分割(译注:分成n组,即一个样例一组)。这时分裂信息的值为log2n。相反,一个布尔属性B分割同样的n个实例,如果恰好平分两半,那么分裂信息是1。如果属性A和B产生同样的信息增益,那么根据增益比率度量,明显B会得分更高。