数据特征分析与预处理的方法（数据中的术语定义）

威哥 2023-07-10 18:39:32 567

数据特征分析与预处理的方法（数据中的术语定义）原则上，机器学习模型性能的离线评估必须在独立的测试数据上计算，而不是在训练或验证集上。同样重要的是，三个样本集（训练集、验证集和测试集）都需要是同分布的，且使用相同的特征及特征工程逻辑。在实际操作中，通常会将大部分数据随机地分配给训练样本：在训练过程中输入模型数据，用于在训练过程中生成模型参数。验证数据用于评估模型在该数据上的表现，根据模型在验证数据上的性能来决定何时停止训练运行，以及选择合适的超参数。测试数据是完全没有在训练过程中使用过的数据，用于评估训练后模型的泛化能力。我们通常使用输入数据来表示输入模型中的真实数据，比如，从业务系统收集到的时间戳，用特征来表示模型实际操作的转化数据（比如，一周中的某一天或者一周发生某件事的次数）。针对中间特征的特征工程的目标则是，进一步提高模型训练的性能，这里的性能可以是准确性。考虑到生产应用场景，有时候为了降低中间计算的复杂度，也需要使用特征工程的

原始数据、输入数据、特征工程

数据是所有机器学习项目的核心“源材料”，原始数据指的是从业务系统直接或间接获取的信息，数值属性的原始数据通常可以直接输入机器学习模型，但很多时候原始数据在输入模型之前需要进行某种数据预处理，比如原始数据为图片、文本等时。

这里的数据预处理属于特征工程的范畴，特征工程是对原始数据或中间特征进行一系列工程化的处理，目标是找到将原始数据或中间数据（已被预处理过的数据）映射为一个更适合建模的新的表示形式，以降低原始数据的噪声和冗余，在提炼出原始数据中，尽可能多信息的同时还能更高效地刻画原始数据与目标的关系。

最终用于模型训练的数据被称为输入数据，输入数据的集合被称为输入空间，通常每个具体的输入称为一个实例，称实例的表示为特征向量，所有特征向量的集合存在于一个空间，即特征空间，特征空间的每一维就是一个特征。

我们通常使用输入数据来表示输入模型中的真实数据，比如，从业务系统收集到的时间戳，用特征来表示模型实际操作的转化数据（比如，一周中的某一天或者一周发生某件事的次数）。针对中间特征的特征工程的目标则是，进一步提高模型训练的性能，这里的性能可以是准确性。考虑到生产应用场景，有时候为了降低中间计算的复杂度，也需要使用特征工程的方法对中间数据进行处理，以满足部署后业务方调用的工程性能要求，比如降维。

训练样本及预留样本

我们谈论的样本集，通常是指在进行监督学习模型构建时用于训练、验证和测试机器学习模型的数据。其中用于训练模型的样本被称作训练样本，用于验证和测试模型的样本被统称为预留样本。

在实际操作中，通常会将大部分数据随机地分配给训练样本：在训练过程中输入模型数据，用于在训练过程中生成模型参数。验证数据用于评估模型在该数据上的表现，根据模型在验证数据上的性能来决定何时停止训练运行，以及选择合适的超参数。测试数据是完全没有在训练过程中使用过的数据，用于评估训练后模型的泛化能力。

原则上，机器学习模型性能的离线评估必须在独立的测试数据上计算，而不是在训练或验证集上。同样重要的是，三个样本集（训练集、验证集和测试集）都需要是同分布的，且使用相同的特征及特征工程逻辑。

内容摘自《MLOps实践：机器学习从开发到生产》，作者李攀登，非参数统计硕士， AlgoLink（专注于MLOps研发与应用）的创始人，出海游戏公司博乐科技数据专家。

数据特征分析与预处理的方法（数据中的术语定义）(1)

网站首页

返回栏目

数据特征分析与预处理的方法（数据中的术语定义）

猜您喜欢：

相关文章