机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）

忙族 2023-04-10 08:05:39 708

机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）NumPy 是一个数学库可以看到提供了很多的封装的数学函数通过这个数学函数就可以构建自己的算法了当然这样的话就需要自己有很强的数学功底.NumPy 是一个运行速度非常快的数学库，主要用于数组计算，包含：------------------------------------------------------NumPy(Numerical Python) 是 Python 语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。NumPy 的前身 Numeric 最早是由 Jim Hugunin 与其它协作者共同开发，2005 年，Travis Oliphant 在 Numeric 中结合了另一个同性质的程序库 Numarray 的特色，并加入了其它扩展而开发了 NumPy。NumPy 为开放源代码并且由许多协作者共同维护开发。

机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）(1)

机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）(2)

编辑

机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）(3)

机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）(4)

编辑然后我们来看一下这个scikit-learn这个机器学习库这个学习库可以看到当然是个python的库他是基于numpy进行封装的封装了很多常用的算法使用的时候就不用自己去写算法了.

numpy和pandas对:

先来看看这两个是什么:

------------------------------------------------------

NumPy(Numerical Python) 是 Python 语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。

NumPy 的前身 Numeric 最早是由 Jim Hugunin 与其它协作者共同开发，2005 年，Travis Oliphant 在 Numeric 中结合了另一个同性质的程序库 Numarray 的特色，并加入了其它扩展而开发了 NumPy。NumPy 为开放源代码并且由许多协作者共同维护开发。

NumPy 是一个运行速度非常快的数学库，主要用于数组计算，包含：

一个强大的N维数组对象 ndarray
广播功能函数
整合 C/C /Fortran 代码的工具
线性代数、傅里叶变换、随机数生成等功能

NumPy 是一个数学库可以看到提供了很多的封装的数学函数通过这个数学函数就可以构建自己的算法了当然这样的话就需要自己有很强的数学功底.

------------------------------------------------------------------------------------------

Pandas 是 Python 语言的一个扩展程序库，用于数据分析。

Pandas 是一个开放源码、BSD 许可的库，提供高性能、易于使用的数据结构和数据分析工具。

Pandas 名字衍生自术语 "panel data"（面板数据）和 "Python data analysis"（Python 数据分析）。

Pandas 一个强大的分析结构化数据的工具集，基础是 Numpy（提供高性能的矩阵运算）。

Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。

Pandas 可以对各种数据进行运算操作，比如归并、再成形、选择，还有数据清洗和数据加工特征。

Pandas 广泛应用在学术、金融、统计学等各个数据分析领域。

------------------------------------------------------------------------------------------

矩阵运算就是对数组运算啊这个Pandas也是基于Numpy实现的.

--------------------------------------

这个scikit-learn单独去安装不好安装可以直接去安装

机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）(5)

机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）(6)

编辑

直接去安装这个Anaconda就可以了安装这个就会自带了很多常用的库包括这个scikit-learn

Anaconda就是可以便捷获取包且对包能够进行管理，同时对环境可以统一管理的发行版本。Anaconda包含了conda、Python在内的超过180个科学包及其依赖项。

---------------------------------------------------------------

Anaconda包括Conda、Python以及一大堆安装好的工具包，比如：numpy、pandas等

Miniconda包括Conda、Python

conda是一个开源的包、环境管理器，可以用于在同一个机器上安装不同版本的软件包及其依赖，并能够在不同的环境之间切换

------------------------------------------------------

机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）(7)

机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）(8)

编辑

然后我们来看一下这个scikit-learn支持的算法可以看到首先是分类第一个可以看到说可以应用于图片的识别 spam detection 垃圾邮件的识别分类.

然后下面algorithms:支持的算法可以看到有SVM 向量机 nearest neighbors 邻近算法 random forest 随机森林算法等.

机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）(9)

机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）(10)

编辑

然后我们再来看他还支持对于回归算法的应用可以看到用它可以来预测一个持续的值 associated 关联的.某个关联对象的某个值的持续预测

可以看到可以用来:drug response 药物反应的预测 Stock prices 股票的涨跌幅度预测.

可以看到他支持的算法有:SVR 这个也是支持向量机的一种算法只不过这个用来做回归 SVM用来做分类然后 ridge regression基于正则的 L2的回归算法 Lasso是基于正则的L1的这样的一个回归算法.还有样例可以看到后面.

机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）(11)

机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）(12)

编辑

然后再来看这个可以看到这个clustering其实就是聚类 cluster有集群的意思做机器学习中叫做聚类

其实就是把一群数据分成一堆一堆的就是把做自然界中表现相似性的数据分到一起这个就叫做聚类可以看到应用有对客户群体进行分割还有根据experiment 实验进行分组输出.

然后看一些算法 K-Means聚类算法 Spectral clustering 普聚类算法 mean-shift...等等聚类算法后面都会具体来说.

机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）(13)

机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）(14)

编辑

然后还有一个就是降维算法其实就是减少变量对吧因为我们知道所谓的维度在机器学习中就是考虑到参数的多少输入的参数越多最后得到的结果越准确但是如果参数越多等于计算量就越大那么如何能保证在参数的个数和计算结果的准确性上做个权衡达到结果最优计算量最小找到这种权衡的算法就是降维算法.可以看到有PCA算法有feature selection 特征选择算法有non-negative matrix factorization 矩阵分解..根据这些算法分析后的参数然后再带入我们的模型中去做运算效果会更好.会让计算的速度会更快.

机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）(15)

机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）(16)

编辑

然后还支持这个模型选择也就是说经过我们的算法算出以后会得到不同的结果参数也叫结果模型那么我们选择哪个模型最好这个过程用到的算法叫模型选择算法然后我们再看这里计算得出的参数我们也可以叫模型然后还有一些我们给定的值可以认为是给定的常量叫做超参数通过我们的这个模型选择算法就能找到最优的超参数可以看到这个算法其实就是通过比较验证选择参数和模型进行工作的可以看到有grid search 栅格算法 cross validation 交叉验证来进行处理还有

metrics 这个算法里面有很多模型的指标可以供我们在左模型选择的时候来参考.比如grid search可以帮我们检索出来哪一组的超参数是最优的然后cross validation用来做交叉验证.

机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）(17)

机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）(18)

编辑

然后我们再来看这个Preprocessing这个预处理算法可以看到其实就是做一些

数据的预处理可以进行feature extraction特征的抽取还有normalization进行数据归一化

然后可以用到的应用可以看到通过机器学习把数据经过处理以后然后再作为数据输入模型

然后可以看到对应的算法有preprocessing与处理 feature extraction特征提取.

机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）(19)

机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）(20)

编辑

然后我们可以看到scikit-learn这个框架包含了机器学习的常用的类库都有了可以看到有分类算法有聚类算法有回归算法然后还有为了我们更好的执行算法而提供的数据预处理算法然后对处理后的数据再进行降维算法然后把数据输入我们的模型经过算法得出结果然后把结果通过模型选择算法然后再来选择合适的模型可以看到 scikit-learn这个框架已经提供给我们常用的机器学习算法大部分情况下数据量不是特别大的情况下就已经可以用这个这个是单机跑的就够用了.

如果数据量特别大那么可以使用Spark中的机器学习模块甚至如果需要更深层次的机器学习就可以使用tensorflow进行深度学习了.

网站首页

返回栏目

机器学习python最有用的库（Python机器学习库scikit-learn介绍---人工智能工作笔记0016）

猜您喜欢：

相关文章