sort函数与filter函数（一起学习ML和DL中常用的几种loss函数）

小君 2022-11-15 07:39:03 934

sort函数与filter函数（一起学习ML和DL中常用的几种loss函数）q(x)分布的信息熵为：p(x)分布的信息熵为：因此我们可以得到信息熵的计算表达式为：其中P(xi)表示为在时间点x的发生概率，信息熵是用来衡量事物不确定性的。信息熵越大，事物越具不确定性，事物越复杂。可以理解为对于同一个随机变量x，有两个概率分布，判断这两个概率分布的差异。假设两个概率分布对应为p(x) q(x) 如何表示这两个分布的差异，我们可以使用信息熵判断，于是相对熵产生。

本文分享自华为云社区《华为云论坛_云计算论坛_开发者论坛_技术论坛-华为云》，作者：Skytier 。

本篇内容和大家一起学习下机器学习和深度学习中常用到的几种loss函数，根据计算分类方式以及场景的不同，我分为了以下三部分进行分析。

CrossEntropy Loss

交叉熵函数是在分类模型中常用的一种损失函数，其表达式为：

sort函数与filter函数（一起学习ML和DL中常用的几种loss函数）(1)

其中用到了信息熵的概念，信息量是一个事件发生所带来的信息，而信息熵则是在结果出来之前对可能产生的信息量的期望，考虑该随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望。

因此我们可以得到信息熵的计算表达式为：

sort函数与filter函数（一起学习ML和DL中常用的几种loss函数）(2)

其中P(xi)表示为在时间点x的发生概率，信息熵是用来衡量事物不确定性的。信息熵越大，事物越具不确定性，事物越复杂。

可以理解为对于同一个随机变量x，有两个概率分布，判断这两个概率分布的差异。假设两个概率分布对应为p(x) q(x) 如何表示这两个分布的差异，我们可以使用信息熵判断，于是相对熵产生。

p(x)分布的信息熵为：

sort函数与filter函数（一起学习ML和DL中常用的几种loss函数）(3)

q(x)分布的信息熵为：

sort函数与filter函数（一起学习ML和DL中常用的几种loss函数）(4)

相对熵为：

sort函数与filter函数（一起学习ML和DL中常用的几种loss函数）(5)

p(x)为样本真实分布，q(x)为预测分布

于是得到相对熵公式为：

sort函数与filter函数（一起学习ML和DL中常用的几种loss函数）(6)

sort函数与filter函数（一起学习ML和DL中常用的几种loss函数）(7)

交叉熵的函数表示为：

sort函数与filter函数（一起学习ML和DL中常用的几种loss函数）(8)

我们观察可以看出，这里与相对熵较为相似，由于我们进行模型训练，有监督训练，样本标签已经确定，相当于真实的概率的分布P(x)已经得知，因此这边的为固定值，相当于常量，那么可以继续优化表达式。

在我们模型训练中完整的相对熵表达式为：

sort函数与filter函数（一起学习ML和DL中常用的几种loss函数）(9)

对于其做为损失函数，常量可以忽略，因此得到了交叉熵的表现形式。

sort函数与filter函数（一起学习ML和DL中常用的几种loss函数）(10)

对于在二分类损失函数中应用，交叉熵损失函数为以下形式。

sort函数与filter函数（一起学习ML和DL中常用的几种loss函数）(11)

了解完交叉熵的基本计算原理，下面关联下另一种以交叉熵为基础的loss函数：BCELoss、BCEWithLogitsLoss和softmax_cross_entropy_with_logits。

BCELoss和SoftMarginLoss

这两种函数都是基于交叉熵的二分类loss函数，所以放在一起分析。

BCELoss中文名称是二分类交叉熵损失，它是用于做二分类模型的损失函数，因为是二分类，可以用0、1表示两个类别。如果想用于多分类的模型，可以将类别拆分成两两一组进行使用。先来看下BCELoss的表达式。

sort函数与filter函数（一起学习ML和DL中常用的几种loss函数）(12)

式子中的pt表示模型的预测值；target表示真实值；w是权重值一般是1。因为用0、1表示两个类别，所以在预测值和真实值相同时，其中一项将会为0，上面这个表达式是计算的单个样本。当一个batch的N个样本时，还需要累加再取平均数。

sort函数与filter函数（一起学习ML和DL中常用的几种loss函数）(13)

SoftMarginLoss对于包含N个样本的batch数据D(x y) x代表模型输出， y代表真实的类，表达式如下：

sort函数与filter函数（一起学习ML和DL中常用的几种loss函数）(14)

式子中的x.nelement( )代表x中元素的个数N

如果单个样本对应一个二分类，则x.nelement( )=N

如果单个样本对应M个二分类，则x.nelement( )=M∗N

我们通过累加前的单个加数来分析

sort函数与filter函数（一起学习ML和DL中常用的几种loss函数）(15)

·当x[i]与y[i]同号，即预测正确时，x[i]与y[i]乘积越大，那么loss会越小，分类确信度就会越高；

·同理，当x[i]与y[i]异号，即预测错误时，loss越大。

BCEWithLogitsLoss和softmax_cross_entropy_with_logits

BCEWithLogitsLoss将sigmoid操作和与BCELoss组合到了一起使用。计算过程和原理是与BCELoss类似的，在BCELoss的计算表达计算式的基础中增加一个sigmoid计算，表达式如下。

sort函数与filter函数（一起学习ML和DL中常用的几种loss函数）(16)

softmax_cross_entropy_with_logits是在交叉熵前做一次softmax计算。具体的执行流程大概分为两个部分：

第一部分是对网络模型最后一层的输出做一个softmax，softmax的用处通常是求取输出属于某一类的概率，对于单样本而言，输出就是一个num_classes 大小的向量（[Y1，Y2，Y3，...]其中Y1，Y2，Y3，...分别代表了是属于该类的概率）。softmax的计算表达式如下：

sort函数与filter函数（一起学习ML和DL中常用的几种loss函数）(17)

第二部分是将softmax的输出向量[Y1，Y2，Y3，...]和样本的实际标签做一个交叉熵计算

sort函数与filter函数（一起学习ML和DL中常用的几种loss函数）(18)

y`i指实际标签中第i个的值；yi指softmax的输出向量[Y1，Y2 Y3...]中，第i个元素的值。从而可以计算出loss值。

总结

本篇首先对交叉熵原理做了解析，再基于交叉熵的基础，引出了第二部分BCELoss和SoftMarginLoss的二分类loss函数，以及第三部分可用于多分类场景的BCEWithLogitsLoss和softmax_cross_entropy_with_logits损失函数。

点击下方，第一时间了解华为云新鲜技术~

华为云博客_大数据博客_AI博客_云计算博客_开发者中心-华为云

网站首页

返回栏目

sort函数与filter函数（一起学习ML和DL中常用的几种loss函数）

猜您喜欢：

相关文章