仅需10分钟开启你的机器学习之路，mooc机器学习第五天-监督学习导学

小君 2023-03-01 12:07:13 885

仅需10分钟开启你的机器学习之路，mooc机器学习第五天-监督学习导学·测试集（testing set):也是已标注数据，通常做法是将标注隐藏，输送给训练好的模型，通过结果与真实标注进行对比，评估模型的学习能力。·训练集（training set):顾名思义用来训练模型的已标注数据，用来建立模型，发现规律。输入：一组有标签的训练数据（也称观察和评估）标签表明了这些数据（观察）的所署类别。输出：分类模型根据这些训练数据，训练自己的模型参数，学习出一个适合这组数据的分类器，当有新数据（非训练数据）需要进行类别判断，就可以将这组新数据作为输入送给学好的分类器进行判断。1.分类学习-评价

监督学习的目标

利用一组带有标签的数据，学习从输入到输出的映射，然后将这种映射关系应用到未知数据上，达到分类或回归的目的。

分类：当输出是离散的，学习任务为分类任务。

回归：当输出是连续的，学习任务为回归任务。

仅需10分钟开启你的机器学习之路，mooc机器学习第五天-监督学习导学(1)

输入：一组有标签的训练数据（也称观察和评估）标签表明了这些数据（观察）的所署类别。

输出：分类模型根据这些训练数据，训练自己的模型参数，学习出一个适合这组数据的分类器，当有新数据（非训练数据）需要进行类别判断，就可以将这组新数据作为输入送给学好的分类器进行判断。

1.分类学习-评价

·训练集（training set):顾名思义用来训练模型的已标注数据，用来建立模型，发现规律。

·测试集（testing set):也是已标注数据，通常做法是将标注隐藏，输送给训练好的模型，通过结果与真实标注进行对比，评估模型的学习能力。

训练集/测试集的划分方法：根据已有标注数据，随机选出一部分数据(70%)数据作为训练数据，余下的作为测试数据，此外还有交叉验证法自助法用来评估分类模型。

仅需10分钟开启你的机器学习之路，mooc机器学习第五天-监督学习导学(2)

仅需10分钟开启你的机器学习之路，mooc机器学习第五天-监督学习导学(3)

仅需10分钟开启你的机器学习之路，mooc机器学习第五天-监督学习导学(4)

precision=40/40 10

recall=40/40 20

1.1.Sklearn提供的分类函数包括：

·k近邻（knn)

·朴素贝叶斯（naivebayes)

·支持向量机（svm)

·决策树（decision tree)

·神经网络模型（Neural networks)等

·这其中有线性分类器，也有非线性分类器。

分类算法的应用

·金融：贷款是否批准进行评估

·医疗诊断：判断一个肿瘤是恶性还是良性

·欺诈检测：判断一笔银行的交易是否涉嫌欺诈

·网页分类：判断网页的所属类别，财经或者是娱乐

2.回归分析

回归：统计学分析数据的方法，目的在于了解两个或多个变数间是否相关、研究其相关方向与强度，并建立数学模型以便观察特定变数来预测研究者感兴趣的变数。回归分析可以帮助人们了解在自变量变化时因变量的变化量。一般来说，通过回归分析我们可以由给出的自变量估计因变量的条件期望。

仅需10分钟开启你的机器学习之路，mooc机器学习第五天-监督学习导学(5)

Sklearn vs.回归

Sklearn提供的回归函数主要被封装在两个子模块中，分别是sklearn.linear_model和sklearn.preprocessing.

sklearn.linear_modle1封装的是一些线性函数，线性回归函数包括有：

·普通线性回归函数（LinearRegression)

·岭回归（Ridge)

·Lasso(Lasso)

非线性回归函数，如多项式回归（PolynomialFeatures)则通过sklearn.preprocessing子模块进行调用

回归应用

回归方法适合对一些带有时序信息的数据进行预测或者趋势拟合，常用在

金融及其他涉及时间序列分析的领域：

·股票趋势预测

·交通流量预测

网站首页

返回栏目