快捷搜索:  汽车  科技

数据特征分析与预处理的方法(数据中的术语定义)

数据特征分析与预处理的方法(数据中的术语定义)原则上,机器学习模型性能的离线评估必须在独立的测试数据上计算,而不是在训练或验证集上。同样重要的是,三个样本集(训练集、验证集和测试集)都需要是同分布的,且使用相同的特征及特征工程逻辑。在实际操作中,通常会将大部分数据随机地分配给训练样本:在训练过程中输入模型数据,用于在训练过程中生成模型参数。验证数据用于评估模型在该数据上的表现,根据模型在验证数据上的性能来决定何时停止训练运行,以及选择合适的超参数。测试数据是完全没有在训练过程中使用过的数据,用于评估训练后模型的泛化能力。我们通常使用输入数据来表示输入模型中的真实数据,比如,从业务系统收集到的时间戳,用特征来表示模型实际操作的转化数据(比如,一周中的某一天或者一周发生某件事的次数)。针对中间特征的特征工程的目标则是,进一步提高模型训练的性能,这里的性能可以是准确性。考虑到生产应用场景,有时候为了降低中间计算的复杂度,也需要使用特征工程的

原始数据、输入数据、特征工程

数据是所有机器学习项目的核心“源材料”,原始数据指的是从业务系统直接或间接获取的信息,数值属性的原始数据通常可以直接输入机器学习模型,但很多时候原始数据在输入模型之前需要进行某种数据预处理,比如原始数据为图片、文本等时。

这里的数据预处理属于特征工程的范畴,特征工程是对原始数据或中间特征进行一系列工程化的处理,目标是找到将原始数据或中间数据(已被预处理过的数据)映射为一个更适合建模的新的表示形式,以降低原始数据的噪声和冗余,在提炼出原始数据中,尽可能多信息的同时还能更高效地刻画原始数据与目标的关系。

最终用于模型训练的数据被称为输入数据,输入数据的集合被称为输入空间,通常每个具体的输入称为一个实例,称实例的表示为特征向量,所有特征向量的集合存在于一个空间,即特征空间,特征空间的每一维就是一个特征。

我们通常使用输入数据来表示输入模型中的真实数据,比如,从业务系统收集到的时间戳,用特征来表示模型实际操作的转化数据(比如,一周中的某一天或者一周发生某件事的次数)。针对中间特征的特征工程的目标则是,进一步提高模型训练的性能,这里的性能可以是准确性。考虑到生产应用场景,有时候为了降低中间计算的复杂度,也需要使用特征工程的方法对中间数据进行处理,以满足部署后业务方调用的工程性能要求,比如降维。

训练样本及预留样本

我们谈论的样本集,通常是指在进行监督学习模型构建时用于训练、验证和测试机器学习模型的数据。其中用于训练模型的样本被称作训练样本,用于验证和测试模型的样本被统称为预留样本。

在实际操作中,通常会将大部分数据随机地分配给训练样本:在训练过程中输入模型数据,用于在训练过程中生成模型参数。验证数据用于评估模型在该数据上的表现,根据模型在验证数据上的性能来决定何时停止训练运行,以及选择合适的超参数。测试数据是完全没有在训练过程中使用过的数据,用于评估训练后模型的泛化能力。

原则上,机器学习模型性能的离线评估必须在独立的测试数据上计算,而不是在训练或验证集上。同样重要的是,三个样本集(训练集、验证集和测试集)都需要是同分布的,且使用相同的特征及特征工程逻辑。

内容摘自《MLOps实践:机器学习从开发到生产》,作者李攀登,非参数统计硕士, AlgoLink(专注于MLOps研发与应用)的创始人,出海游戏公司博乐科技数据专家。

数据特征分析与预处理的方法(数据中的术语定义)(1)

猜您喜欢: