快捷搜索:  汽车  科技

麻省理工最年轻教授的算法课:MIT博士生 北大校友 利用自监督算法

麻省理工最年轻教授的算法课:MIT博士生 北大校友 利用自监督算法然而在自动驾驶数据集里,不可能全是肇祸、违规的场景(大部分场景还是安全的)。例如,自动驾驶感知模型中,就要求AI能提前预测可能违规的情形,并及时阻止。这类数据不均衡(某一标签数量太多,其余标签数量太少)的问题,在机器学习中被称为“长尾问题”。这个问题导致,数据集中(尤其是大型数据集)样本数量少的物体,泛化效果会非常差。然而事实上,在一个数据集中,几乎总有常见和不常见的类别,其中不常见的类别,又往往成为需要被识别的目标。

萧箫 转载整理自 杨宇喆
量子位 报道 | 公众号 QbitAI

训练模型时,你是否也遭遇过这样的“尴尬”时刻:

好不容易找到了自己想要的数据集,结果点进去一看,大部分样本都是一类物体。(例如,数据集标签「动物」,结果80%的样本都是「猫」)

麻省理工最年轻教授的算法课:MIT博士生 北大校友 利用自监督算法(1)

用上面这个数据集训练的动物检测模型,可能只能识别「猫」。

这类数据不均衡(某一标签数量太多,其余标签数量太少)的问题,在机器学习中被称为“长尾问题”

这个问题导致,数据集中(尤其是大型数据集)样本数量少的物体,泛化效果会非常差。

麻省理工最年轻教授的算法课:MIT博士生 北大校友 利用自监督算法(2)

△像一条长长的尾巴

然而事实上,在一个数据集中,几乎总有常见和不常见的类别,其中不常见的类别,又往往成为需要被识别的目标。

例如,自动驾驶感知模型中,就要求AI能提前预测可能违规的情形,并及时阻止。

然而在自动驾驶数据集里,不可能全是肇祸、违规的场景(大部分场景还是安全的)。

那么,这些“不均衡”的数据集,就真的不能用了吗?

来自MIT的两名博士生杨宇喆和Zhi Xu,想到了一种新的解决方案,研究成果登上了NeurIPS 2020顶会。

麻省理工最年轻教授的算法课:MIT博士生 北大校友 利用自监督算法(3)

一起来看看。

一些已有的解决办法

事实上,此前为了解决“不均衡”数据集,研究者们已经尝试过多种方法。

仅仅是主流算法,就分为七种:

重采样 (re-sampling):分为对少样本的过采样、及多样本的欠采样,但这2种方法,都有欠缺的地方。其中,过采样容易发生少样本过拟合,无法学习更鲁棒、易泛化的特征,在不平衡数据上表现较差;欠采样会造成多样本严重信息损失,导致发生欠拟合。

数据合成 (synthetic samples):生成和少样本相似的新数据。以SMOTE方法为例,对于任意选取的少类样本,它用K近邻选取相似样本,并通过对样本线性插值得到新样本。这里与mixup方法相似,因此,也有非均衡的mixup版本出现。

麻省理工最年轻教授的算法课:MIT博士生 北大校友 利用自监督算法(4)

重加权 (re-weighting):为不同类别(甚至不同样本)分配不同的权重。其中,权重可以自适应。这一方法诞生出很多变种,如对类别数目的倒数进行加权、对“有效”样本数加权、对样本数优化分类间距的损失加权等等。

迁移学习 (transfer learning):对多类和少类样本分别建模,将学到的多类样本信息/表示/知识迁移给少类别使用。

麻省理工最年轻教授的算法课:MIT博士生 北大校友 利用自监督算法(5)

猜您喜欢: