数据不平衡和加权交叉熵

请注意，这weighted_cross_entropy_with_logits是的加权变体sigmoid_cross_entropy_with_logits。S形交叉熵通常用于二进制 分类。是的，它可以处理多个标签，但是S型交叉熵基本上是对每个标签做出（二进制）决定的-例如，对于人脸识别网，那些（但不是互斥的）标签可能是“对象戴眼镜吗？ ，“ 对象是女性吗？ ”等。

在二进制分类中，每个输出通道都对应一个二进制（软）判决。因此，需要在损失的计算中进行加权。weighted_cross_entropy_with_logits通过对交叉熵的一项进行加权，可以做到这一点。

在互斥的多标签分类中，我们使用softmax_cross_entropy_with_logits，其表现方式有所不同：每个输出通道都对应于一个候选类别的分数。该决定是后，通过比较每个信道的相应输出。

因此，在做出最终决定之前进行加权很简单，通常是通过与权重相乘来在比较分数之前对其进行修改。例如，对于三元分类任务，

# your class weights
class_weights = tf.constant([[1.0, 2.0, 3.0]])
# deduce weights for batch samples based on their true label
weights = tf.reduce_sum(class_weights * onehot_labels, axis=1)
# compute your (unweighted) softmax cross entropy loss
unweighted_losses = tf.nn.softmax_cross_entropy_with_logits(onehot_labels, logits)
# apply the weights, relying on broadcasting of the multiplication
weighted_losses = unweighted_losses * weights
# reduce the result to get your final loss
loss = tf.reduce_mean(weighted_losses)

您也可以依靠它tf.losses.softmax_cross_entropy来完成最后三个步骤。

在您的情况下，如果您需要解决数据不平衡的问题，那么班级权数的确可能与火车数据中它们的频率成反比。规范化它们，使它们加起来等于一个或多个类，这也是有意义的。

请注意，在上文中，我们根据样本的真实标签对损失进行了处罚。我们还可以通过简单地定义基于估计标签的损失

weights = class_weights

由于广播魔术，其余代码无需更改。

在一般情况下，您可能希望权重取决于所犯错误的类型。换句话说，对于每对标签X和Y，X当真实标签为时，您可以选择如何惩罚选择标签Y。您最终得到一个完整的先验权重矩阵，这将导致weights以上结果为完整(num_samples, num_classes)张量。这超出了您想要的范围，但是了解上面代码中仅需要更改权重张量的定义可能会很有用。

其他 2022/1/1 18:27:23 有539人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

数据不平衡和加权交叉熵

撰写回答

推荐问题

php：从二进制数据重新创建并显示图像

Angular.JS：视图共享同一控制器，更改视图时重置模型数据

从数据库编译动态HTML字符串

Laravel 5：通过数据透视同步额外的字段

全文搜索和200M +记录的数据库

从Servlet内检索从JSON发送为JSON的数据

docker数据量与已安装主机目录

AngularJS：使用$ http.post传递复杂的json数据

如何使用Spring动态跟踪数据库更改？

如何在Laravel中使用多个数据库

Java SE 6中的JPA / Hibernate，用于数据访问的最佳实践

子聚合导致数据丢失

Tomcat上的Spring Security SAML元数据URL

onSave（）（用于使用Hibernate / Spring数据存储库保存的任何实体）

如何为网页实现实时数据

获取和传递MVC模型数据到AngularJS控制器

EntityManager无法使用持久性将元素保存到数据库

Spring数据mongodb：自动装配时找不到mongodb存储库

无需连接数据库即可替代mysql_real_escape_string

如何在Linux中通过特定接口发送多播数据包

分类汇总

您的鼓励是对我最大的支持