r语言分析与数据挖掘(R语言数据挖掘实践)
r语言分析与数据挖掘(R语言数据挖掘实践)Test选项主要进行的统计检验有:KS检验(Kolmogorov-Smirnov)、威尔克特斯检验(Wilcoxon Rank-Sum)、T检验(T-test)以及F检验(F-test)选项Test主要用于数据集的相关检验。在确定数据来源与数据划分之后,系统将会列出数据集中的各个变量以及变量的数据类型。在数据对话框中,我们可以选择变量在构建模型时的具体作用。选项Explore主要用于数据探究。Explore选项主要能根据数据集输出关于数据集的一下信息:数据总体概括(Summary)、数据分布情况(Distributions)、数据的相关系数矩阵(Correlation)、数据集的主成分分析(Principal Components)以及各变量之间的相互作用(Interactive)
在Rattle界面上部有一栏菜单按钮,其中有9个选项,分别为:Data、Explore、Test、Transform、Cluster、Associate、Model、Evaluate以及Log。以上选项即为该程序包的主要功能,这些选项依次排序使用即为通常情况下模型建立的完整过程。其中,Model与Evaluate为进行模型评估的核心内容。下面依次介绍该程序包各选项的具体使用方式,并对Model和Evaluate进行详细解说。
Data-选取数据选项Data主要用于模型数据的选取,确定模型数据的来源。
在数据来源中,通常有来源于表格的数据(Spreadsheet),例如在Excel中建立的数据:来源于数据库的数据(ODBC),例如通过R直接提取MySQL中的数据;来源于R软件中的数据集(R Dataset)等。
第三行中的参数Partition主要用于数据的划分。在Rattle包中,为了方便进行模型的建立和分析,系统将会把原始数据集划分为三部分:Training、Validation以及Testing。系统将默认划分比例设定为70:15:15,并将按照划分比例从数据集中随机抽取样本。在具体使用过程中,数据集Training主要用于模型的建立,数据集Validation以及数据集Testing主要用于模型评估以及模型测试。
在确定数据来源与数据划分之后,系统将会列出数据集中的各个变量以及变量的数据类型。在数据对话框中,我们可以选择变量在构建模型时的具体作用。
Explore-数据探究选项Explore主要用于数据探究。
Explore选项主要能根据数据集输出关于数据集的一下信息:数据总体概括(Summary)、数据分布情况(Distributions)、数据的相关系数矩阵(Correlation)、数据集的主成分分析(Principal Components)以及各变量之间的相互作用(Interactive)
Test-数据相关检验选项Test主要用于数据集的相关检验。
Test选项主要进行的统计检验有:KS检验(Kolmogorov-Smirnov)、威尔克特斯检验(Wilcoxon Rank-Sum)、T检验(T-test)以及F检验(F-test)
Transform-数据预处理选项Transform主要用于数据集的预处理。
Transform选项对数据的转换主要有4种转换类型,分别为数据标准话(Rescale)、数据插值(Impute)、数据重排列(Recode)以及数据清理(Cleanup)。我们可以看到,在数据转换类型Type的下面一行里,显示出了在数据标准化中将要使用到的标准化方式,例如0-1标准化等。
Cluster-数据聚类选项Cluster主要用于将数据集进行聚类。
Cluster选项主要存在4种数据的聚类方式,分别为K均值聚类法(KMeans)、自适应的软子空间聚类算法(Ewkm)、层次聚类法(Hierarchical)以及双聚类算法(BiCluster)。在聚类方法Type的下面一行主要用于决定聚类分析的相关参数,例如类别数量以及随机生成器初始值等。
Model-模型评估选项Model主要用于模型的估计,即构建我们即将进行评估的模型。
在Model选项中,我们可以看到界面的第一行是模型类型Type。模型的类别总共有6种,分别为决策树模型(Tree)、随机森林模型(Forest)、自适应选择模型(Boost)、支持向量机分类模型(SVM)、普通线性回归模型(Linear)以及单隐藏层人工神经网络模型(Neural Net)。这里的模型类别并非由R软件自定固定决定,而主要取决于读者电脑中相关的程序包。即读者需要评估何类模型,则应先下载安装相应的模型构建程序包。
在确定了模型的预测类别后,界面下面将会出现和模型相关的参数。例如从图中关于决策树的参数中我们可以看到,第一个参数值是决策树的最小节点数。在确定模型的类别以及模型相关的参数之后,我们需要点击"执行"按钮进行模型的构建。
系统在建立出模型之后将会在下面的对话框中展示出模型的相关信息。
我们取rattle默认的数据集“weather.csv”为例,以随机森林为例,详细情况如下图所示。
上图是利用Rattle程序构建随机森林模型的相关结果输出图。在图中我们可以看到,随机森林模型中决策树的个数为500棵,而每一棵决策树的节点分支处所选择的变量个数为4个。
在参数决定窗口的旁边有四个按钮。其中,Importance按钮主要用于绘制模型中各变量在不同标准下的重要值图像;Errors按钮主要用于绘制模型中各个类别以及根据袋外数据计算的误判率的图像;OOB ROC按钮主要用户绘制根据随机森林模型的袋外数据计算而得到的ROC图像。
上图是通过Importance按钮生成的重要值图像。该图像总体分为两个图像,其中第一个图像为根据精确度平均减少值所计算得出的重要值所绘制;第二个图像为根据节点不纯度减少平均值计算得出的重要值所绘制。图中纵轴为所有变量的名称,横轴为各变量对应的重要值,越在顶层的变量对于模型的重要程度越大。
上图是通过Errors按钮生成的误判率图像。该图中总共有三条颜色的线,这三条线分别代表了肯定结论的误判率、否定结论的误判率以及根据袋外数据计算而得的误判率。该图中纵轴为具体误判率的值,而横轴为随机森林中决策树的数量。误判率图像可以用来帮助决策随机森林中决策树的数量。
上图是通过OOB ROC按钮根据随机森林模型中的袋外数据计算生成的ROC图像,具体作用在后续章节详细说明。
Evaluate-模型评估选项Evaluate主要用于模型评估。
Evaluate选项中,Rattle程序包提供了一系列模型评估标准。其中有模型混淆矩阵(Error Matrix)、模型风险表(Risk)、模型ROC图像(ROC)以及模型得分数据集(Score)等各类模型评估指标。
在模型评估标准类型的下面一行是需要进行评估的模型类别,这一行的选项只有在前面Model选项中已经建立了的模型才可用。在模型类别的选择栏下面一行是数据类型选择栏,Training数据集用于模型构建,而Validation数据集与Testing数据集用于模型评估。
Log-模型评估记录选项Log主要用于记录以上所介绍的所有功能的具体执行情况。