交叉熵损失函数和focal loss

阿里云教程7个月前发布

39 0 0

交叉熵

交叉熵是信息论中的一个重大致念，主要用于度量两个概率分布间的差异性。是分类问题中常常使用的一种损失函数。

一般使用交叉熵作为损失函数时，在模型的输出层总会接一个softmax函数（用来获得结果分布）。

交叉熵公式：

交叉熵损失函数和focal loss

用来衡量真实概率分布交叉熵损失函数和focal loss 和预测标签分布之间的差异；

要了解交叉熵就需要先了解下述概念：

信息量

信息熵：“信息是用来消除随机不确定性的东西”，也就是说衡量信息量的大小就是看这个信息消除不确定性的程度。

信息量的大小与信息发生的概率成反比。概率越大，信息量越小。概率越小，信息量越大。例如：”2018年中国队成功进入世界杯“，从直觉上来看，这句话具有很大的信息量。由于中国队进入世界杯的不确定性因素很大，发生的概率很小；

设某一事件发生的概率为P(x)，其信息量表明为：
交叉熵损失函数和focal loss

信息熵

信息熵也被称为熵，用来表明所有信息量的期望；

期望是试验中每次可能结果的概率乘以其结果的总和。

所以信息量的熵可表明为：（这里的X XX是一个离散型随机变量）
交叉熵损失函数和focal loss

相对熵（KL散度）

如果对于同一个随机变量交叉熵损失函数和focal loss 有两个单独的概率分布和，则我们可以使用KL散度来衡量这两个概率分布之间的差异。

直接上公式
交叉熵损失函数和focal loss
KL散度越小，表明和的分布更加接近。

列如在一个三分类任务中（例如，猫狗马分类器），交叉熵损失函数和focal loss 分别代表猫，狗，马。

例如一张猫的图片真实分布交叉熵损失函数和focal loss 和,计算KL散度:

交叉熵损失函数和focal loss

交叉熵

将KL散度公式拆开：

交叉熵损失函数和focal loss

前者交叉熵损失函数和focal loss 表明信息熵，后者即为交叉熵，KL散度 = 交叉熵 - 信息熵
交叉熵公式为：

交叉熵等于KL散度加上一个常量（信息熵），且公式相比KL散度更加容易计算，所以在机器学习中常常使用交叉熵损失函数来计算loss就行了。

Focal loss损失函数

Focal Loss的引入主要是为了解决**难易样本数量不平衡****（注意，有区别于正负样本数量不平衡）的问题，实际可以使用的范围超级广泛。

本文的作者认为，易分样本（即，置信度高的样本）对模型的提升效果超级小，模型应该主要关注与那些难分样本。一个简单的思想：把高置信度(p)样本的损失再降低一些不就好了吗！

focal loss函数公式：
交叉熵损失函数和focal loss
其中，为类别权重，用来权衡正负样本不均衡问题；表明难分样本权重，用来衡量难分样本和易分样本；

阿里云教程

文章版权归作者所有，未经允许请勿转载。

深入理解Java字符串常量池：String.intern()的原理、演进与实战

阿里云教程

6个月前

0360

计算机专业：AI 冲击下，就业难的核心是能力跟不上，而非专业本身

阿里云教程

7个月前

0380

试了10种方法后，这4个学习工具让我效率翻倍，不再死记硬背

阿里云教程

5个月前

0340

「儿研所儿医说」小孩咳嗽迁延不愈，川贝雪梨汤到底是“救星”还是“帮凶”？

阿里云教程

6个月前

6370

暂无评论

暂无评论...