怎么整合多个机器学习结果（机器学习数据你怎么分的）

威哥 2023-07-14 01:31:47 196

怎么整合多个机器学习结果（机器学习数据你怎么分的）4.序数3.二进制你可以将每个功能作为以下七种数据类型之一进行思考和讨论，以节省时间并传递知识：1.无用2.名义

点击上方关注，All in AI中国

作者：Jeff Hale

在本文中，我为机器学习从业者提供一种更有用的数据分组：7种数据类型。

我在本文中提出的框架应该引导相关行业从业者更快地开发出更好的模型，尤其是新入行的从业者。人们可以参考这7种数据类型，我们都应该能够更快地评估和讨论可用的编码选项和归因策略。

TL;DR

你可以将每个功能作为以下七种数据类型之一进行思考和讨论，以节省时间并传递知识：

1.无用

2.名义

3.二进制

4.序数

5.计数

6.时间

7.间隔

当前状态

在机器学习领域，数据几乎总是分为两组：数值和分类。

数值数据用于表示由数字（浮点或整数）表示的任何内容。分类数据通常表示其他所有内容，特别是通常会调出离散的标记组。数值和分类这两个主要分组使用不一致，并没有提供关于如何操纵数据的方向。

Stanley Smith Stevens

在20世纪60年代，哈佛大学心理学家Stanley Smith Stevens数据创建了四个测量量表：比率、间隔、序数、名义。

•比率（值与有意义的零值之间的相等间距- 均值是有意义的）

•间隔（值之间的相等空间，但没有有意义的零值 - 均值是有意义的）

•序数（第一、第二、第三个值，但第一个和第二个之间和第二个和第三个之间的间距不等， - 中位数是有意义的）

•名义（不同类别之间没有数字关系- 均值和中位数无意义）

Stevens的类型学变得非常受欢迎，尤其是在社会科学领域。从那时起，其他研究人员进一步扩大了量表（Mosteller和Tukey）的范畴，包括多达10个类别（Chrisman）。尽管如此，尽管在许多情况下没有提供明确的指导，但Stevens的类型学已经在社会科学中占据了统治地位，并在数据科学中被引用。

其他机器学习和数据科学从业者以各种方式采用了Stevens的部分类型，从而产生了各种术语。例如，Hastie、Tibshirani和Friedman在《统计学习的要素》第二版（The Statistical of Statistical Learning 2nd Ed）中，将比率和间距组合成定量，并将序数和分类分开（第504页）。而在其他地方，Hastie等人将序数称为有序分类变量，将分类变量称为定性、离散或因子（第10页）。Dummies数据统计数据类型将数据类型分为数字、序数和分类，这与数字间距的结果相比。DataCamp在本教程中引用连续数据、序数数据和名义数据类型。

统计中偶尔出现的分类是离散变量和连续变量之间的分类。离散数据具有不同的值，而连续数据在一个范围内具有无限数量的潜在值。

通常在机器学习中，数字和分类是人们看到的分歧。流行的Pandas库将可选类别中的序数和名义数据整合在一起。总的来说，当前机器学习数据类型的词汇是不一致和令人困惑的。目前尚不清楚为什么其学习进展缓慢，可以做些什么来改善。

机器学习的7种主要数据类型

尽管在机器学习中改进数据类型的词汇似乎是一个大胆的目标，但我希望本文将提供一个有用的分类方法，以便为数据科学家提供更多可行的方法。通过提供明确的类别，我希望能够帮助我的同事（特别是行业新手）更快地构建模型，并发现改进模型性能的新选项。

我建议对机器学习从业者通过以下最有用的7种数据类型进行分类：

1.无用

2.名义

3.二进制

4.序数

5.计数

6.时间

7.间隔

1.无用数据

无用数据是唯一的离散数据，与结果变量没有潜在关系。无用数据的功能具有很高的基数。一个例子是随机生成的银行帐号。这对于机器学习来说毫无用处，但有点酷。

怎么整合多个机器学习结果（机器学习数据你怎么分的）(1)

如果某个要素由没有顺序且无意义的唯一值组成，则该要素无用，在拟合模型时无需包含该要素。

2.名义数据

名义数据由离散值组成，不同类别之间没有数字关系，其平均值和中位数无意义。动物物种就是一个例子。例如，猪不高于鸟，不低于鱼。

怎么整合多个机器学习结果（机器学习数据你怎么分的）(2)

名义数据：动物群

国籍是名义数据的另一个例子。没有数字顺序的组成员资格，例如法语、墨西哥语或日语，这本身并不意味着是一种有序关系。

你可以对名称功能进行热编码或散列。不要对它们进行序数编码，因为这些组之间的关系不能简化为单调函数。值的赋值将是随机的。

3.序数数据

序数数据是可以排序的离散整数。一个明确的特征是任何两个数字之间的距离是未知的。

怎么整合多个机器学习结果（机器学习数据你怎么分的）(3)

例如，第一个数据和第二个数据之间的距离，与第二数据和第三数据之间的距离不同。例如一场万米的长跑比赛。获胜者可能跑30:00分钟，第二名可能跑30:01分钟，第三名可能跑400分钟。如果没有时间数据，我们不知道队伍之间的相对距离。

从广义上讲，序数数据可以用三种方式之一进行编码。可以假设它足够接近间隔数据，在值之间具有相对相等的距离，以便对其进行处理。社会科学家一直用Likert量表做出这个假设。例如，从1到7的比例，1是极不可能的，4是可能也不可能，7是极有可能。例如你有多大可能推荐这部电影给朋友？这里可以合理地假设3和4之间的差异，以及6和7之间的差异是相似的。

第二种选择是将序数数据视为名义数据，其中每个类别与任何其他类别无关。在这种情况下可以使用一个热编码或类似方案。

将序数数据分类是有价值的，因为它是自己的数据类型。

4.二进制数据

二进制数据是离散数据，只能是两个类别中的一个：是或否，1或0，关闭或打开等。二进制可以被认为是序数、名义、计数或间隔数据的特殊情况。

怎么整合多个机器学习结果（机器学习数据你怎么分的）(4)