代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）

小君 2023-08-20 23:36:45 686

代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）在分类层计算样本与各类的相似度以及权重向量，得到个类间相似度以及单个类内相似度。为了最小化每个以及最大化每个，统一的损失函数如公式1，其中为缩放因子，为边际(margin)。公式1迭代每个相似度对来减小，通过简单的修改就能变为triplet loss和classification loss。基于上面的发现，论文认为不同的相似分数应该有不同的惩罚力度，首先将转换为，和是独立的权重因子，分别与和线性相关，这样不仅使得和能以不同的步伐进行学习，还可以更具相似分数调整幅值。这样的优化策略使得在空间内呈现圆形，故称为Circle loss。 Circle loss主要从以下3个方面入手改变深度特征学习的内在特性：论文的主要贡献如下：给予特征空间的单样本，假设有个类内相似分数和个类间相似分数关联，定义相似度分数为和。

论文提出了Circle loss，不仅能够对类内优化和类间优化进行单独地处理，还能根据不同的相似度值调整对应的梯度。总体而言，Circle loss更灵活，而且优化目标更明确，在多个实验上都有较好的表现，个人认为是一个很好的工作

来源：晓飞的算法工程笔记公众号

论文: Circle Loss: A Unified Perspective of Pair Similarity Optimization

代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）(1)

论文地址：https://arxiv.org/abs/2002.10857

Introduction

代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）(2)

论文认为两类基础的深度特征学习方法classification learning(比如softmax)和pair-wise learning(比如triplet loss)均是为了最小化类内相似度和类间相似度，理想是。而大部分常用的损失函数都是将和embed成相似度对，然后用各自研究的策略最小化的值。这种策略提升等同于下降，但其实这种对称的优化方法很容易存在以下问题：

缺乏优化的灵活性。由于基于损失函数同时优化和，导致和的梯度的幅值是一样的。当和均很小时，依然会使用较大的梯度惩罚，这是不高效且不合理的。
收敛目标不明确。优化通常会遇到决策边界问题。而这个边界目前是不够明确的，首先图1a中的ABC点均到决策边界的距离相等，但其收敛点却不太一样(梯度正交于?)。其次，不同收敛点间的类内和类间相似度差异可能较小，比如样本和，虽然边际(margin)均为0.3，但和的差距仅为0.1，这样的收敛状态会影响整体样本的区分性。

基于上面的发现，论文认为不同的相似分数应该有不同的惩罚力度，首先将转换为，和是独立的权重因子，分别与和线性相关，这样不仅使得和能以不同的步伐进行学习，还可以更具相似分数调整幅值。这样的优化策略使得在空间内呈现圆形，故称为Circle loss。 Circle loss主要从以下3个方面入手改变深度特征学习的内在特性：

统一损失函数来表示两类基础的深度特征学习方法classification learning(比如softmax)和pair-wise learning(比如triplet loss)。
灵活地优化，由于和会随着对应的相似度分数来改变对应的梯度，如图1b的点ABC的梯度是各不一样的。
明确的收敛目标，在圆形的决策边界，circle loss有更倾向的决策状态，如图2b的ABC点，均偏向于更新到点T，原因后面会讲到。

论文的主要贡献如下：

提出Circle loss，通过有监督地加权不同相似度分数来进行深度特征学习，能够更灵活地优化，并且有明确的收敛目标。
Circle loss能够兼容class-level标签和pair-wise标签，通过简单的修改就能变化为triplet loss或softmax loss。
在不同的任务(人脸识别，ReID，细粒度图片检索等)上进行实验证明Cirle loss的优势。

A Unified Perspective

给予特征空间的单样本，假设有个类内相似分数和个类间相似分数关联，定义相似度分数为和。

代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）(3)

为了最小化每个以及最大化每个，统一的损失函数如公式1，其中为缩放因子，为边际(margin)。公式1迭代每个相似度对来减小，通过简单的修改就能变为triplet loss和classification loss。

Given class-level labels

在分类层计算样本与各类的相似度以及权重向量，得到个类间相似度以及单个类内相似度。

代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）(4)

结合公式1，得到公式2的softmax变种AM-Softmax，当时，公式2能够进一步变化为Normface，当将cosine相似度替换为内积以及设置时，则为softmax loss。

Given pair-wise labels

计算mini-batch中样本与其它样本的相似性，得到类间相似度以及单个类内相似度。

代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）(5)

结合公式1，，，得到带hard mining的triplet loss，用于调节mining的程度，当时，就是绝对的hard mining。

Gradient analysis

代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）(6)

公式2和公式3展示了公式1的通用性，目标均是优化。论文假设仅存在单个和，各种损失函数的梯度进行了可视化，如图2所示，观察到了主流损失函数的几点梯度表现：

在达到决策边界前，和的梯度是相同的，这缺乏优化的灵活性。
梯度在收敛前几乎是不变，而在收敛时则突然下降。比如图2的B点相对于A点是更优的，但是两点的梯度几乎一样，这也表明了优化的不灵活。
决策边界平行于(图2的白线)，不同的点会可能以边界上的不同点或为目标，导致收敛目标不明确，如之前所述的。

A New Loss Function

Self-paced Weighting

代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）(7)

为了让每个相似度分数能够根据当前优化状态调整学习的幅度，先忽略公式1的并调整为Circle loss，如公式4所示，和为非负权重因子。

代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）(8)

假定的最优值为，的最优值为，则和的计算如公式5，称为self-paced manner，为cut-off at zero操作来保证和非负。加权是分类loss中的常见操作，所有的相似度分数共享同一个缩放因子，而Circle loss则根据每个相似度分类的值再进行一次独立的加权，允许不同的学习幅度，能够更加地灵活。

Within-class and Between-class Margin

代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）(9)

在之前的讨论中，主流损失函数的的优化是对称的(减少等同于增大)，仅需一个边际(margin)即可。而在Circle loss中，的优化是非对称的，因此需要设置独立的边际，如公式6，其中和为类间边际和类内边际，目标是以及，下面探讨边际的设置问题。

代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）(10)

考虑简单的二分类问题，决策边界为，结合公式5和6，决策边界可转换为公式7，其中，即为Circle loss决策边界为圆的弧，如图1b所示，中心点为，半径为。

代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）(11)

Circle loss包含5个参数，论文通过设置，，，来减少参数，最终将公式7转换为公式8。基于公式8的决策边界，可以看到其目标为和，参数控制决策边界的半径可以看作是松弛因子，即可将Circle loss目标改为和$s^i_n

The Advantages of Circle Loss

代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）(12)

代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）(13)

Circle loss关于和的梯度分别为公式9和公式10，在简单的二分类问题上，梯度的可视化如图2c所示，可以观察到几点梯度表现：

Circle loss能够平衡地优化和，动态地调整惩罚各自的力度。
逐渐衰弱的梯度，如图2c所示，在训练初期，远离决策边际将获得较大的梯度，随着逐渐接近收敛，其梯度逐渐衰减，并且对具有鲁棒性。
更明确的收敛目标，如图1b所示，Circle loss更倾向于收敛至点，因为相对于其他点，点的和差距最小，加上梯度足够灵活，最容易学习到该状态。因为和差距越大，需要将数据划分地更开，更难学习。

Experiment

Face Recognition

代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）(14)

代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）(15)

代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）(16)

Person Re-identification

代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）(17)

Fine-grained Image Retrieval

代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）(18)

Impact of the Hyper-parameters

代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）(19)

Investigation of the Characteristics

代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）(20)

通过观察图4发现：

在初始时，所有的和都较小，这是由于高维随机特征倾向于彼此分离。而在训练中，得到了显著的较大权重，占据了训练，使得相似度快速增加，这证明了Circle loss使用更灵活且平衡的优化手段。
在训练的最后，Circle loss在和的收敛上都比AMSoftmax要好。

代码埋点与可视化埋点（CircleLoss巧妙地深度特征优化方法）(21)

论文可视化了收敛后的相似度分布，可以看到，Circle loss以更紧密地方式通过了决策边界，而AMSoftmax则较为稀疏地通过了，这表明Circle loss的优化目标较为明确的，特征空间可分离性更好，这种情况在图5c中更为明显。

CONCLUSION

论文将classification learning和pair-wise learning进行了统一的表达，并根据目前的损失函数实际存在问题进行了改进，提出了Circle loss，不仅能够对类内优化和类间优化进行单独地处理，还能根据不同的相似度值调整对应的梯度。总体而言，Circle loss更灵活，而且优化目标更明确，在多个实验上都有较好的表现。

如果本文对你有帮助，麻烦点个赞或在看呗～更多内容请关注微信公众号【晓飞的算法工程笔记】

网站首页

返回栏目