快捷搜索:  汽车  科技

数据挖掘常用专业术语(数据挖掘常用专业术语)

数据挖掘常用专业术语(数据挖掘常用专业术语)数据集是一种由数据所组成的集合,通常以表格或文本形式出现,每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题,如一份产品信息表。4. 数据集反应数据或对象在某方面的表现或性质的事项(自变量),如:“收入”或“逾期”。3. 数据宽表业务主题相关的指标、维度、属性关联在一起的一张数据库表。

在数据挖掘中,经常会遇到不同的术语,具体介绍如下:

1. 样本

研究中实际观测或调查的一部分个体称为样本(sample),研究对象的全部称为总体。 同理,已经知道结果的历史数据称为标记数据(Labeled data),每一条独立的标记数据叫做样本,例如如:一条客户信息数据我们称它为一条数据样本。


2. 特征(属性)

反应数据或对象在某方面的表现或性质的事项(自变量),如:“收入”或“逾期”。


3. 数据宽表

业务主题相关的指标、维度、属性关联在一起的一张数据库表。


4. 数据集

数据集是一种由数据所组成的集合,通常以表格或文本形式出现,每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题,如一份产品信息表。


5. 离散变量

变量取值只能取离散型的自然数,就是离散型随机变量。 举例:随机选出 10 个人,男性有 N 个,N 是随机数,它的取值只能是自然数 0 ~ 10,而不绝不可能 N 是 3.5 个人这种情况。N 就是离散型随机变量。


6. 连续变量

如果变量可以在某个区间内取任一实数,即变量的取值可以是连续的,这随机变量就称为连续型随机变量。 比如,公共汽车每 15 分钟一班,某人在站台等车时间 x 是个随机变量,x 的取值范围是[0 15) 它是一个区间,从理论上说在这个区间内可取任一实数,如 3.5,因而称这随机变量是连续型随机变量。


7. 重要变量

建模中对模型的目标起“响应”作用的变量。


8. ROC

ROC 的全名叫做 Receiver Operating Characteristic,是一个画在二维平面上的曲线——ROC curve。横坐标是 false positive rate(FPR),纵坐标是 true positive rate(TPR)。对某个分类器而言,我们可以根据其在测试样本上的表现得到一个 TPR 和 FPR 点对。这样,此分类器就可以映射成 ROC 平面上的一个点。调整这个分类器分类时候使用的阈值,我们就可以得到一个经过(0 0),(1 1)的曲线,这就是此分类器的 ROC 曲线。


9. 交叉熵

为了描述一个随机事件的信息量,定义了自信息。 自信息表示不确定性的程度。 一个事件确定发生,是没有信息量的;而一个事件发生的概率越小,则其信息量越大。 未知所带来的不确定性,就是自信息要描述的目标。熵是自信息的期望。交叉熵:两个分布的相近程度的描述。


10. 提升

一个模型(或规则)对目标中“响应”的预测能力优于随机选择的倍数,以 1 为界线,大于 1 的提升表示该模型或规则比随机选择捕捉了更多的“响应”,等于 1 则表示该模型的表现独立于随机选择,小于 1 则表示该模型或规则比随机选择捕捉了更少的“响应”。


11. K-S 值

Max(TPR-FPR),即真正类率与假正类率的最大差值,K-S 值越大,表示模型能够将正、负客户区分开的程度越大。通常来讲,KS>0.2 即表示模型有较好的预测准确性。


12. 正则化

正则化(regularization),是指在线性代数理论中,不适定

问题通常是由一组线性代数方程定义的,而且这组方程组通常来源于有着很大的条件数的不适定反问题。大条件数意味着舍入误差或其它误差会严重地影响问题的结果。机器学习中使用正则化是为了防止过拟合。


13. 训练集

训练过程中使用的数据叫做“训练集”,其中每条样本叫做一个“训练样本”,多条训练样本组成的集合叫做训练集。


14. 测试集

通过学习训练样本得到模型后,使用模型进行预测的过程叫做测试,用于预测的样本就叫做测试样本。 训练集和测试都是 Labeled data,所以训练、测试集里 label 是有已知答案的。


15. 验证集

通常把学得模型在实际预测使用中遇到的数据称为验证集,验证集的答案是未知的,需要通过模型去获得答案的。


16. 分类

如果预测的是离散值(A 或 B 或 C...),此类学习任务的目的是将样本最终目的是将样本划分到这些类别(属于 A 类或 B 类...)当中,因此称为分类。


17. 二分类

预测值中涉及了两个分类的任务叫做二分类 如:是或不是。


18. 多分类

预测值涉及多个类别时,称为“多分类”。


19. 过拟合

当学习器把训练样本学得太好了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化能力下降,这种现象称为过拟合。


20. 泛化能力

学到的模型适用于新样本的能力,称为“泛化”能力。


21. 欠拟合

对训练样本的一般性质尚未学好,模型未训练好。


22. 时间穿越

用未来的数据训练的模型去预测过去发生的事,称之为时间穿越。 比如,假设样本数据包含了 7 月份和 8 月份的用户行为数据,按照随机拆分,划分的结果将为训练集和测试集中都可能含有 7 月 和 8 月的数据,这样的数据在训练时没有问题,但是在预测评估时,会导致数据指标优于实际情况,例如,若真实的 AUC 应该 是 0.7,那么在这样的数据集上评估出的结果就会大于 0.7。


23. 依存

对变量之间的相关方面及相关关系的密切程度以定量。


24. 变量重要性

每个预测变量对于目标变量的重要性百分比的排名。


25. AUC

AUC(Area Under Curve)被定义为 ROC 曲线下与坐标轴围成的面积,显然这个面积的数值不会大于 1。又由于 ROC 曲线一般都处于 y=x 这条直线的上方,所以 AUC 的取值范围在 0.5 和 1 之间。AUC 越接近 1.0,检测方法真实性越高;等于 0.5 时,则真实性最低,无应用价值。

数据挖掘常用专业术语(数据挖掘常用专业术语)(1)

猜您喜欢: