机器学习基本知识点(机器学习入门一)
机器学习基本知识点(机器学习入门一)机器学习并不是最近才出现的现象。事实上,神经网络最早是在1943年引入的(3) !因此,机器学习模型将根据性能测量和机器学习模型所需的训练经验来学习任务。而在机器学习中,我们输入一个数据集,机器通过识别和分析数据集中的模式来学习。然后,机器将根据它的观察和从数据集中学到的知识自主地做出决定。尽管有很多机器学习的例子,我们在这里只讨论其中的一些。现在让我们看一个“鸟类物种识别学习”问题的例子。对这个例子的解释包括模型的任务、模型的业绩衡量标准以及准确结果所需的培训经验:
文章摘要机器学习已成为当今的一个热门话题,全世界的企业家都转向机器学习进行商业运作。机器学习已经取得了进步,它甚至可以预测结果,而不需要明确的程序来这样做。
不仅如此,当谈到机器学习在交易中的应用时,还有更多的东西。这个博客,将会带你学习所有关于机器学习的基础知识,以及如何开始学习相应的应用程序。
文章目录- 什么是机器学习?
- 机器学习的例子
- 机器学习的历史
- 机器学习的重要性
- 机器学习的组成部分
- 机器学习分类
- 机器学习与深度学习的区别
- 学习机器学习的先决条件
- 用于机器学习的 Python 库
- 机器学习中常用的术语
- 机器学习在交易中的应用
- 学习机器学习的资源
- 机器学习的未来
机器学习,顾名思义,为机器提供了基于经验、观察和分析给定数据集中的模式而无需显式编程的自主学习能力。
当我们为某种特定目的编写程序或代码时,我们实际上是在编写机器将要遵循的一组明确的指令。
而在机器学习中,我们输入一个数据集,机器通过识别和分析数据集中的模式来学习。然后,机器将根据它的观察和从数据集中学到的知识自主地做出决定。
机器学习的例子尽管有很多机器学习的例子,我们在这里只讨论其中的一些。
- Facebook:举个例子,想想 Facebook 的面部识别算法,它会在你上传照片的时候提示你给照片加标签。
- Alexa、 Cortana 和其他语音助理:使用机器学习来识别和服务用户请求的语音助理。
- 特斯拉汽车:特斯拉的自动驾驶仪(2)功能。
现在让我们看一个“鸟类物种识别学习”问题的例子。对这个例子的解释包括模型的任务、模型的业绩衡量标准以及准确结果所需的培训经验:
- 机器学习模型的任务: 在图像中识别和分类鸟类
- 性能测量: 正确分类鸟类的百分比
- 机器学习模型的训练经验: 给定分类的鸟类数据集训练
因此,机器学习模型将根据性能测量和机器学习模型所需的训练经验来学习任务。
机器学习的历史机器学习并不是最近才出现的现象。事实上,神经网络最早是在1943年引入的(3) !
尽管在早期,由于计算成本高,机器学习的进展有些缓慢。高昂的计算成本使得这个领域只有大型学术机构或跨国公司才能进入。此外,这些数据本身也很难满足公司的需求。
但是随着互联网的出现,我们现在每天都在生成数以亿计的数据!
结合计算成本的降低,我们发现机器学习不仅仅是一个可行的命题(5)。
机器学习历史上一些值得注意的事件是:
- 1950年的今天,“艾伦 · 图灵”(6)首次创造了一种测试方法,用来检验一台机器是否能够欺骗人类,让人相信它在和一台机器说话。
- 1952年的今天,第一个计算机学习程序,跳棋游戏,是由阿瑟 · 塞缪尔编写的。
- 1957年的今天,弗兰克 · 罗森布拉特(Frank Rosenblatt)发明了第一个用于计算机的神经网络,它模拟了人类大脑的思维过程。
- 1967年的今天,最近邻算法问世。
- 1979年的今天,加利福尼亚州斯坦福大学的学生发明了一种可以自行导航和避开障碍物的斯坦福车。
- 1997年的今天,IBM 的“深蓝”击败了国际象棋世界冠军。
2002年的今天,一个名为 Torch 的机器学习软件库首次发布。
2016年的今天,谷歌 DeepMind 开发的 AlphaGo 算法在中国围棋棋盘游戏比赛中赢得了五局的胜利。
这些事件可以表示为:
机器学习的时间表
机器学习的重要性机器学习在企业领域发挥着重要作用,因为它使企业家能够最大限度地减少人工劳动。机器学习模型在人类的帮助下学习,但最终,机器学习并接管了所学的任务。
尽管需要最低限度的干预,以确保不会出现“与机器有关”的故障或更新输入的数据。
如今,像谷歌、亚马逊、 Facebook、特斯拉这样的领先企业正在有效地利用这些技术。因此,机器学习被证明是操作和功能的核心部分。
此外,还有大量的用例可以应用机器学习来降低成本,减轻风险,提高包括风险管理在内的整体生活质量。此外,全球机器学习(ML)市场预计将从2022年的211.7亿美元增长到2029年的2099.1亿美元,预计复合年增长率为38.8% 。
机器学习的组成部分现在有成千上万的机器学习算法,每年都有成百上千的新算法被开发出来。
每个机器学习算法都有三个组成部分:
- 表示: 这意味着如何表示知识。例子包括决策树,规则集,实例,图形模型,神经网络,支持向量机,模型集合等。
- 评估: 这是评估候选项目(假设)的方法。例子包括准确性、预测和召回、平方误差、可能性、后验概率、成本、利润、熵 k-L 散度等。
- 优化: 最后但并非最不重要的是,优化是候选程序生成的方式,被称为搜索过程。例如,组合优化、凸优化和约束优化。
所有的机器学习算法都是这三个组成部分的结合,这是理解所有算法的框架。
机器学习分类
机器学习算法可分为监督算法、无监督算法、强化算法三类:
监督算法- 线性回归
- Logit模型
- KNN 分类
- 支持向量机(SVM)
- 决策树
- 随机森林
- 朴素贝叶斯定理
- K均值聚类
让我们更深入地研究一下这些机器学习的基本算法。
监督学习算法在这种类型的算法中,训练机器的数据集由标记的数据或简单的说法组成,既包括输入参数,也包括所需的输出。
让我们以前面的面部识别为例,一旦我们确定了照片中的人物,我们就会尝试将他们分类为婴儿、青少年或成年人。
在这里,婴儿、青少年和成年人将是我们的标签,我们的训练数据集将已经根据某些参数被分类到给定的标签中,通过这些参数,机器将学习这些特征和模式,并根据从这些训练数据中学习分类一些新的输入数据。
监督学习算法可大致分为两类算法: 分类算法和回归算法。
- 分类算法
顾名思义,这些算法用于将数据分类为预定义的类或标签。我们将讨论一种最常用的分类算法,称为 K- 最近邻(KNN)分类算法。
2. 机器学习回归算法
这些算法用于确定两个或多个变量之间的数学关系和变量之间的依赖程度。这些可用于基于两个或多个变量的相互依赖性预测输出。
例如,产品价格的上涨将减少其消费量,这意味着,在这种情况下,消费量将取决于产品的价格。
在这里,消费量将被称为因变量,产品的价格将被称为自变量。消费量对产品价格的依赖程度将有助于我们根据产品价格的变化预测消费量的未来价值。
3. 非监督学习算法
不像监督学习算法,我们处理标记的数据用于训练,训练数据将不会标记为非监督学习算法。将根据变量之间的相似性将数据分为特定组。
一些非监督学习算法是 K平均算法和神经网络。
一个简单的例子是,我们会根据足球运动员的数据,使用 K平均算法,并根据他们的相似性给他们贴上标签。因此,这些集群可以基于前锋的偏好得分的任意球或成功的铲球,即使算法没有给予预先定义的标签开始。
对于那些认为不同资产之间可能存在表面上看不到的相似之处的交易员来说,K平均算法是有利的。
虽然我们在非监督学习算法中提到了神经网络,但它们既可以用于监督算法,也可以用于非监督学习算法,这一点值得商榷。人工神经网络和回归神经网络也属于非监督学习算法。
机器学习与深度学习的区别
机器学习模型缺乏识别错误的机制,在这种情况下,程序员需要介入调整模型,以便做出更准确的决策,而深度学习模型可以识别不准确的决策,并在没有人为干预的情况下自行修正模型。
但是,与机器学习模型不同,深度学习模型需要大量的数据和信息。
学习机器学习的先决条件学习机器学习有一些先决条件,如果没有这些先决条件,人们就会失去继续学习机器学习所需要的重要概念。这些是:
统计概念在机器学习中,统计概念是根据数据建立模型的基础。方差分析和假设检验等统计数据对构建算法至关重要。
概率概率有助于预测未来的结果,机器学习中的大多数算法都是基于需要可靠决策的不确定条件。
数据建模数据建模能够识别底层的数据结构,找出模式,并填补数据不存在的地方之间的空白。
编程技巧我们都知道机器学习主要依赖于算法,这意味着一个人应该拥有至少一种编程语言的扎实知识。Python 被认为是一种易于掌握的语言,而且大多数定量分析师都在使用它。
用于机器学习的 Python 库Python 库有助于消除从头编写代码的需要。它们在开发机器学习模型中起着至关重要的作用,因为它们需要算法。让我们看看下面一些最流行的图书馆。
- Scikit-learn
它是一个基于 SciPy 库的 Python 机器学习库,由包括分类、聚类和回归在内的各种算法组成,可以与 NumPy 和 SciPy 等其他 Python 库一起用于科学和数值计算。
它的一些类和函数是sklearn.cluster sklearn.datasets sklearn.ensemble sklearn.mixture等。
- TensorFlow
TensorFlow是一个用于高性能数值计算和机器学习应用(如神经网络)的开源软件库。由于其灵活的体系结构,它允许跨各种平台(如 CPU、 GPU、 TPU 等)轻松部署计算。了解如何安装 TensorFlow图形处理器在这里。
- Keras
Keras是一个深度学习库,用于开发神经网络和其他深度学习模型。它可以构建在 TensorFlow、微软认知工具包或 Theano之上,并且注重模块化和可扩展性。
机器学习中常用的术语这里有一些机器学习的基本术语,这将有助于您开始您的机器学习算法的旅程。
- 偏见
如果机器学习模型的可预测性水平较高,则该模型具有较低的偏差。换句话说,它在处理数据集时犯的错误更少。
当我们需要比较两种机器学习算法对于同一个问题的描述时,偏差起着非常重要的作用。
- 交叉验证偏见
机器学习的交叉验证是一种能够准确测量机器学习模型性能的技术。这种表现意味着当模型在未来在没有任何人类帮助的情况下使用时,您的期望。
简而言之,交叉验证偏差会发现机器学习模型是否正确地学习了任务。
机器学习模型的应用是从现有的数据中学习,并利用这些知识来预测未来看不见的事件。机器学习模型中的交叉验证需要在实时交易前彻底完成,以免出现意外错误。
- 欠拟合
如果一个机器学习模型不能准确地预测,那么我们说这个模型不适合。这可能是由于各种原因,包括,没有选择正确的特征进行预测,或者只是问题的陈述过于复杂,所选择的机器学习算法。
- 过拟合
在机器学习和统计学中,当模型对数据拟合得太好或者当模型太复杂时,就会发生过拟合。过拟合模型学习训练数据中的细节和噪声,以至于在新的数据/测试数据上对模型的性能产生负面影响。
过拟合
过拟合问题可以通过减少特征/输入的数量或增加训练样本的数量来解决,从而使机器学习算法更加一般化。解决过度装配问题更常见的方法是通过正规化。
这些是我们在机器学习基础中讨论的一些术语。上面提到了大多数流行的机器学习算法。
机器学习在交易中的应用机器学习应用于各种服务。机器学习在企业领域发挥着重要作用,因为它使企业家能够理解顾客的行为和企业的运作行为。
目前,几乎所有的公共领域都是由机器学习应用驱动的。举几个这样的行业的例子——医疗保健、搜索引擎、数字营销和教育是主要的受益者。
让我们具体看看机器学习系统所涵盖的所有服务。
机器学习的应用
参考书目- Solomonoff R.J. (June 1964). "A formal theory of inductive inference. Part II" ⁽¹⁰⁾. Information and Control.
- Mitchell Tom (1997) ⁽¹¹⁾. Machine Learning ⁽¹²⁾. New York: McGraw Hill.
- Cortes Corinna ⁽¹³⁾; Vapnik Vladimir N. (1995). "Support-vector networks". Machine Learning ⁽¹⁴⁾.
- Stuart J. Russell Peter Norvig (2010) Artificial Intelligence: A Modern Approach ⁽¹⁵⁾ Third Edition Prentice Hall.
机器学习在各个领域都非常重要,因为各种正确的理由而受到欢迎。通过了解先决条件并采用这些先决条件,就可以使用机器学习。此外,机器学习的未来似乎是光明的。因此,学习所有关于著名的机器学习有几个好处。
从我们的机器学习入门课程开始你的机器学习之旅,并成为使用机器学习算法的专家。
借助该领域的几项重要研究,本课程将帮助您了解不同的机器学习算法是如何在金融市场数据上实现的。