信息论熵与符号熵（信息熵信息增益）

小君 2023-06-22 16:48:38 287

信息论熵与符号熵（信息熵信息增益）首先定义时间xi的信息量为其发生概率对数的负数，记为L(xi)，有：其中 x 表示随机变量，随机变量的取值为（x1 x2 … xn） p(xi) )表示事件xi发生的概率，且有∑p(xi)=1。信息熵的单位为bit。需要引入消除不确定性的信息量越多，则信息熵越高，反之则越低。（2）公式信息熵的公式如下：

1、信息熵

（1）概念

一条信息的信息量大小和它的不确定性有直接的关系。

比如说，我们要搞清楚一件非常非常不确定的事，或是我们一无所知的事情，就需要了解大量的信息。相反，如果我们对某件事已经有了较多的了解，我们不需要太多的信息就能把它搞清楚。所以，从这个角度，我们可以认为，信息量的度量就等于不确定性的多少。

换种说法，熵是一种不确定性的度量。机器学习领域中，我们提到的熵基本都是香农熵即信息熵。

需要引入消除不确定性的信息量越多，则信息熵越高，反之则越低。

（2）公式

信息熵的公式如下：

信息论熵与符号熵（信息熵信息增益）(1)

其中 x 表示随机变量，随机变量的取值为（x1 x2 … xn） p(xi) )表示事件xi发生的概率，且有∑p(xi)=1。信息熵的单位为bit。

首先定义时间xi的信息量为其发生概率对数的负数，记为L(xi)，有：

L(xi)=−log(p(xi))

由该定义可得，H(x)为随机变量X的平均信息量（即期望，期望等于试验中每次可能的结果乘以其结果概率的综合）

为什么L(xi) = −log( p(xi) )可以表示为事件xi的信息量？

事件xi的信息量大小和它发生的概率（不确定性）有直接的关系。比如说，要搞清楚一件非常不确定的事，或是一无所知的事情，就需要了解大量的信息。相反，如果对某件事已经有较多了解，我们不需要太多的信息就能把它搞清楚。即信息量函数应该与事件概率成单调递减关系。

同时，两个独立事件xi xj 满足p(xi xj) = p(xi)∗p(xj)信息量大小应等于各自信息量之和。那么同时符合以上要求的是I(xi)=−logp(xi)。

取log原因： p(xi xj)=p(xi)∗p(xj) info(xi xj)=info(xi) info(xj)

取负号原因：信息量越高，不确定量度越高，概率越小，log(p(xi))越小，−log(p(xi))越大，即信息量越大。

2、信息增益（互信息）

（1）概念

熵：表示随机变量的不确定性。

条件熵：在一个条件下，随机变量的不确定性。

信息增益 = 熵 - 条件熵

换句话说，信息增益代表了在一个条件下，信息复杂度（不确定性）减少的程度。

（2）互信息

互信息(Mutual Information)是信息论里一种有用的信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。

两个随机变量X Y的互信息，定义为X Y的联合分布和独立分布乘积的相对熵。

信息论熵与符号熵（信息熵信息增益）(2)

根据上述公式可知，X的熵H(X) 减去X和Y的互信息 I(X;Y) 之后，可以得到在Y给定的情况下X的熵H(X|Y)。

其中H(X)和H(Y) 是边缘熵，H(X|Y)和H(Y|X)是条件熵，而H(X Y)是X和Y的联合熵。注意到这组关系和并集、差集和交集的关系类似，用Venn图表示：

信息论熵与符号熵（信息熵信息增益）(3)

（3）两者区别

信息增益

直观的说，有了X作为预测y 的辅助，可以增加一些信息量，反过来讲，也就是降低了信息的不确定性，即降低了熵值。因此，可以得到信息增益的概念

信息论熵与符号熵（信息熵信息增益）(4)

互信息

如果不把X看做预测Y的特征，而是把X，Y看做成地位相等事件，可以看到信息增益的概念和互信息是一致的：

信息论熵与符号熵（信息熵信息增益）(5)

3、经验熵

根据给定的已知样本集，计算样本集的香农熵，就是经验熵。

比如，投硬币游戏，得到如下样本集：

正面：6次

反面：8次

则根据本次的样本集，得到样本集的香农熵就是经验熵：

4、信息增益比（增益率）

信息增益对于偏向于特征值很多的属性，而特征值很多的属性明显并不能提供泛化的分类能力，因此引入了信息增益比（增益率）的概念。

C4.5用的是信息增益率。C4.5算法不再是通过信息增益来选择决策属性。一个可以选择的度量标准是增益比率gain ratio（Quinlan 1986）。增益比率度量是用前面的增益度量Gain(S，A)和分裂信息度量SplitInformation(S，A)来共同定义的，如下所示：

信息论熵与符号熵（信息熵信息增益）(6)

其中，分裂信息度量被定义为(分裂信息用来衡量属性分裂数据的广度和均匀)：

信息论熵与符号熵（信息熵信息增益）(7)

其中S1到Sc是c个值的属性A分割S而形成的c个样例子集。注意分裂信息实际上就是S关于属性A的各值的熵。这与我们前面对熵的使用不同，在那里我们只考虑S关于学习到的树要预测的目标属性的值的熵。

请注意，分裂信息项阻碍选择值为均匀分布的属性。例如，考虑一个含有n个样例的集合被属性A彻底分割（译注：分成n组，即一个样例一组）。这时分裂信息的值为log2n。相反，一个布尔属性B分割同样的n个实例，如果恰好平分两半，那么分裂信息是1。如果属性A和B产生同样的信息增益，那么根据增益比率度量，明显B会得分更高。

网站首页

返回栏目

信息论熵与符号熵（信息熵信息增益）

猜您喜欢：

相关文章