快捷搜索:  汽车  科技

麻省理工最年轻教授的算法课:MIT博士生 北大校友 利用自监督算法

麻省理工最年轻教授的算法课:MIT博士生 北大校友 利用自监督算法在特定任务上,有监督学习通常比无监督学习的准确性更高,即使不平衡,标签也都具有“正面价值”。一方面,这些标签提供了非常珍贵的监督信息。关键在于,究竟该怎么理解这里面的“不均衡”?那些本身就不平衡的数据标签,会不会具有什么价值?研究发现,这些不平衡的数据标签,就像是一把“双刃剑”。

度量学习 (metric learning):希望能学到更好的嵌入,以对少类附近的边界/边缘更好地建模。

元学习/域自适应 (meta learning/domain adaptation):分别对头、尾部数据进行不同处理,自适应地学习如何重加权,或是规划成域自适应问题。

麻省理工最年轻教授的算法课:MIT博士生 北大校友 利用自监督算法(1)

解耦特征和分类器 (decoupling representation & classifier):研究发现,将特征学习和分类器学习解耦、将不平衡学习分为两个阶段,并在特征学习阶段正常采样、在分类器学习阶段平衡采样,可以带来更好的长尾学习效果。这是目前最优的长尾分类算法。

但这些,在样本极端失衡的情况下也没法用,如果真的只有几个样本,模型的性能差异就无法避免。

关键在于,究竟该怎么理解这里面的“不均衡”?

“不均衡”标签的内在价值

那些本身就不平衡的数据标签,会不会具有什么价值

研究发现,这些不平衡的数据标签,就像是一把“双刃剑”。

一方面,这些标签提供了非常珍贵的监督信息。

在特定任务上,有监督学习通常比无监督学习的准确性更高,即使不平衡,标签也都具有“正面价值”。

麻省理工最年轻教授的算法课:MIT博士生 北大校友 利用自监督算法(2)

但另一方面,标签的不平衡,会导致模型在训练过程中,被强加标签偏见 (label bias),从而在决策区域被主类别极大地影响。

研究者们认为,即使是不平衡标签,它的价值也可以被充分利用,并极大地提高模型分类的准确性。

如果能先“抛弃标签信息”,通过自监督预训练,让模型学习到好的起始表示形式,是否就能有效地提高分类准确性?

从半监督,到自监督预训练

作者们先对半监督下的不均衡学习进行了实验。

实验证明,利用无标记数据的半监督学习,能显著提高分类结果。

从图中可以看出,未标记数据,有助于建模更清晰的类边界,促成更好的类间分离。

麻省理工最年轻教授的算法课:MIT博士生 北大校友 利用自监督算法(3)

这是因为,尾类样本所处区域数据密度低,在学习过程中,模型不能很好地对低密度区域进行建模,导致泛化性差。

而无标记数据,能有效提高低密度区域样本量,使得模型能对边界进行更好的建模。

然而,在一些很难利用半监督学习的极端情况下,仍然需要自监督学习出场。

这是因为,一旦自监督产生良好初始化,网络就可以从预训练任务中受益,学习到更通用的表示形式。

麻省理工最年轻教授的算法课:MIT博士生 北大校友 利用自监督算法(4)

而实验同样证明了这一点。

正常预训练的决策边界,很大程度上会被头类样本改变,导致尾类样本大量“泄漏”,无法很好地泛化。

而采用自监督预训练的话,学习到的样本保持清晰的分离效果,且能减少尾类样本泄漏。

麻省理工最年轻教授的算法课:MIT博士生 北大校友 利用自监督算法(5)

猜您喜欢: