机器学习的模型评估方法(机器学习VS统计模型)
机器学习的模型评估方法(机器学习VS统计模型)统 计 学——1749年科学和研究的起源:机器学习:一种不依赖于规则设计的数据学习算法。统计模型:以数学方程形式表现变量之间关系的程式化表达。统计学家更关心模型的可解释性,注重构建和解释统计模型时的严谨性,而机器学习专家更关心模型的预测能力。比如说,机器学习说我预测明天下雨的概率是0.8,统计学家就会说,我预测明天95%的可能性下雨的概率落在[0.7 0.9]之间。
作者:王凤君
版权所有©德塔精要,转载请注明出处
很多刚接触机器学习的初学者,常常搞不清机器学习与统计模型的差异与联系。当映入眼帘“均值,方差,期望,置信区间......”,纳尼?!!!倘若再瞅见“聚类,分类,回归,NLP,深度学习......”,What the hell?!!! 那么,接下来我们就弄清楚到底统计模型和机器学习是怎么回事。
定义首先可以明确,和数据相关,无论使用哪种工具去分析问题,最终的目的都是从数据获得知识。因此,统计模型和机器学习都旨在通过分析数据的产生机制,挖掘背后隐藏的信息。查阅了很多资料,下面两个定义最能直白的说明这两个概念
-
机器学习:一种不依赖于规则设计的数据学习算法。
-
统计模型:以数学方程形式表现变量之间关系的程式化表达。
统计学家更关心模型的可解释性,注重构建和解释统计模型时的严谨性,而机器学习专家更关心模型的预测能力。比如说,机器学习说我预测明天下雨的概率是0.8,统计学家就会说,我预测明天95%的可能性下雨的概率落在[0.7 0.9]之间。
渊源科学和研究的起源:
-
统 计 学——1749年
-
人工智能——1940年
-
机器学习——1946年
-
数据挖掘——1980年
从上图中你观察到了什么?统计模型在分类问题中得到一个简单的分类线,一条非线性的边界线区分了高风险人群和低风险人群。但当我们看到通过机器学习产生的颜色时,我们发现统计模型似乎没有办法和机器学习算法进行比较。机器学习的方法获得了任何边界都无法详细表征的信息。这就是机器学习可以为你做的。具体地,从下面几个方面聊聊~
-
机器学习:计算机科学和人工智能的一个分支,通过数据学习构建分析系统,不依赖明确的构建规则。统计模型:数学的分支用以发现变量之间相关关系从而预测输出。
-
统计模型的历史已经有几个世纪之久。但是机器学习却是最近才发展起来的。二十世纪90年代,稳定的数字化和廉价的计算使得数据科学家停止建立完整的模型而使用计算机进行模型建立,这催生了机器学习的发展。随着数据规模和复杂程度的不断提升,机器学习不断展现出巨大的发展潜力。
-
统计模型基于一系列的假设。
例如线性回归模型假设:
(1)自变量和因变量线性相关
(2)同方差
(3)波动均值为0
(4)观测样本相互独立
(5)波动服从正态分布
Logistics回归同样拥有很多的假设。即使是非线性回归也要遵守一个连续的分割边界的假设。
然而机器学习却从这些假设中脱身出来。机器学习最大的好处在于没有连续性分割边界的限制。同样我们也并不需要假设自变量或因变量的分布。
-
机器学习应用广泛,可学习数以亿计的观测样本,预测和学习同步进行。一些算法如随机森林和梯度助推在处理大数据时速度很快。机器学习处理数据的广度和深度很大。但统计模型一般应用在较小的数据量和较窄的数据属性上。
-
统计模型是数学的加强,依赖于参数估计,它要求模型的建立者,提前知道或了解变量之间的关系。机器学习通过反复迭代学习发现隐藏在数据中的科学。由于机器学习作用在真实的数据上并不依赖于假设,预测效果是非常好的。
机器学习的目标是搭建一套高效可靠的系统,能够持续的预测未来并且稳定的工作。比如,机器视觉系统需要做的是正确预测一张图片里的小动物到底是猫还是狗,两张人脸的照片里是不是同一个人,一个室内机器人是不是能够正确的识别出它周围的环境,等等。
统计学家通过建立严谨的统计模型来做预测,所以它能给出预测的可信性:置信区间。但是因为世界的复杂性导致很多问题我们不能构建严谨的统计模型,也不知道一个复杂事物背后的模型或者function是什么,所以统计模型解决不了人脸识别等问题。
从某种程度上说,统计学习理论里的很多想法的确给了机器学习一些启发,但是,这几年来机器学习发展的如此之快,如此火爆的根本原因更多的是来源于可训练数据量的大幅度提升(互联网的普及,human computation平台的成熟,各类线下数据的电子化等等)以及电脑运算性能的突飞猛进 而并不一定是统计理论本身的根本性突破。
可以这么说,统计学和机器学习是高度相互依赖的领域,没有其他领域的引领和帮助,他们不能够单独存在,而非两个有所隔阂的领域。虽然机器学习和统计模型看起来为预测模型的不同分支,但通过数十年的发展两种模型的差异性将越来越小。