机器学习决策树可视化（机器学习-决策树）

逗爷 2023-08-24 14:47:35 874

机器学习决策树可视化（机器学习-决策树）1、信息增益 2、基尼指数从上图中可以看出，决策树在产品总和表上工作，也称为析取范式。在上图中，我们预测计算机在人们日常生活中的使用。在决策树中，主要挑战是识别每个级别中根节点的属性。此过程称为属性选择。我们有两种流行的属性选择措施：1、信息增益

yale记

关注可了解更多的教程问题或建议，请公众号留言。

背景介绍

决策树算法属于监督学习的范畴。它们可用于解决回归和分类问题。
决策树使用树表示来解决每个叶节点对应于类标签的问题，并且属性在树的内部节点上表示。
我们可以使用决策树表示离散属性上的任何布尔函数。

机器学习决策树可视化（机器学习-决策树）(1)

以下是我们在使用决策树时所做的一些假设：

一开始，我们将整个训练集视为根。
特征值优选是分类的。如果值是连续的，则在构建模型之前将它们离散化。
在属性值的基础上，记录以递归方式分布。
我们使用统计方法以root或内部节点对属性进行排序。

机器学习决策树可视化（机器学习-决策树）(2)

从上图中可以看出，决策树在产品总和表上工作，也称为析取范式。在上图中，我们预测计算机在人们日常生活中的使用。

在决策树中，主要挑战是识别每个级别中根节点的属性。此过程称为属性选择。我们有两种流行的属性选择措施：

1、信息增益

2、基尼指数

1、信息增益

当我们使用决策树中的节点将训练实例划分为更小的子集时，熵会发生变化。信息增益衡量熵的这种变化。

定义：假设S是一组实例，A是属性，Sv是S的子集，A = v，而值（A）是A的所有可能值的集合，那么

机器学习决策树可视化（机器学习-决策树）(3)

熵

熵是随机变量不确定性的度量，它表征任意一组例子的杂质。熵越高，信息内容越多。

定义：假设S是一组实例，A是属性，Sv是S的子集，A = v，而值（A）是A的所有可能值的集合，那么

机器学习决策树可视化（机器学习-决策树）(4)

例如：

对于集合X = {a，a，a，b，b，b，b，b}

总计：8

b的实例：5

实例：3

机器学习决策树可视化（机器学习-决策树）(5)

= -[0.375 * (-1.415) 0.625 * (-0.678)] =-(-0.53-0.424) = 0.954

使用信息增益构建决策树

要点：

从与根节点关联的所有培训实例开始
使用信息增益选择标记每个节点的属性
注意：没有root-to-leaf路径应该包含两次相同的离散属性
递归地构建训练实例子集上的每个子树，这些子树将被分类到树中的路径。

边界案例：

如果仍然存在所有肯定或所有负面训练实例，则相应地将该节点标记为“是”或“否”。
如果没有剩余属性，则在该节点上留下多数投票训练实例的标签。
如果没有实例，则标记父节点培训实例的多数投票

例如：

现在，让我们使用信息增益为以下数据绘制决策树。

训练集：3个特征和2个分类

XYZC111I110I001II100II

在这里，我们有3个特征和2个输出类别。

使用信息增益构建决策树。我们将采用每个功能并计算每个功能的信息。

机器学习决策树可视化（机器学习-决策树）(6)

在特征x上拆分

机器学习决策树可视化（机器学习-决策树）(7)

在特征Y上拆分

机器学习决策树可视化（机器学习-决策树）(8)

在特征Z上拆分

从上面的图像中我们可以看到，当我们对特征Y进行分割时，信息增益是最大的。因此，对于根节点，最合适的特征是特征Y.现在我们可以看到，在按特征Y分割数据集时，孩子包含目标变量的纯子集。所以我们不需要进一步拆分数据集。

上述数据集的最终树将如下所示：

机器学习决策树可视化（机器学习-决策树）(9)

2、基尼指数

基尼指数是衡量随机选择的元素被错误识别的频率的指标。
这意味着应该首选具有较低基尼指数的属性。
Sklearn支持基尼指数的“基尼”标准，默认情况下，它采用“基尼”值。

计算基尼系数的公式如下：

机器学习决策树可视化（机器学习-决策树）(10)

让我们考虑下图中的数据集，并使用指数索引绘制决策树：

INDEXABCDE14.83.41.90.2positive2531.61.2positive353.41.60.2positive45.23.51.50.2positive55.23.41.40.2positive64.73.21.60.2positive74.83.11.60.2positive85.43.41.50.4positive973.24.71.4negative106.43.24.71.5negative116.93.14.91.5negative125.52.341.3negative136.52.84.61.5negative145.72.84.51.3negative156.33.34.71.6negative164.92.43.31negative

在上面的数据集中，有5个属性，属性E是预测特征，包含2个（正面和负面）类。我们两个班级的比例相等。

在基尼指数中，我们必须选择一些随机值来对每个属性进行分类。此数据集的这些值为：

A B C D >= 5 >= 3.0 >= 4.2 >= 1.4 < 5 < 3.0 < 4.2 < 1.4

机器学习决策树可视化（机器学习-决策树）(11)