神经网络不确定性综述(Part V)——Uncertainty measures and quality

相关链接:

神经网络不确定性综述(Part I)——A survey of uncertainty in deep neural networks-CSDN博客

神经网络不确定性综述(Part II)——Uncertainty estimation_Single deterministic methods-CSDN博客

神经网络不确定性综述(Part III)——Uncertainty estimation_Bayesian neural networks-CSDN博客

神经网络不确定性综述(Part IV)——Uncertainty estimation_Ensemble methods&Test-time augmentation-CSDN博客

神经网络不确定性综述(Part V)——Uncertainty measures and quality-CSDN博客


4. Uncertainty measures and quality

不确定性的数值测量与质量评估的方法。

  1. Uncertainty estimation的质量取决于所使用的方法。比如different approximations of Bayesian inference (e.g. Gaussian and Laplace approximations) 会产生不同的不确定性估计结果。
  2. Uncertainty缺少金标准。比如,如果我们将uncertainty定义为the uncertainty across human subjects,we still have to answer questions as “How many subjects do we need?” or “How to choose the subjects?”
  3. 缺乏统一的定量评价指标。在不同的机器学习任务中,不确定性的定义也是不同的(Huang et al . 2019b)。比如在回归任务重,prediction intervals or standard deviation被用来表示uncertainty;而在分类/分割任务中,可以使用entropy作为捕获uncertainty的指标。

4.1 Evaluating uncertainty in classification tasks

For classification tasks, the network’s softmax output already represents a measure of confidence. But since the raw softmax output is neither very reliable (Hendrycks and Gimpel 2017) nor can it represent all sources of uncertainty (Smith and Gal 2018), further approaches and corresponding measures were developed.

4.1.1 Measuring data uncertainty in classification tasks

In order to evaluate the amount of predicted data uncertainty, one can for example apply the maximal class probability or the entropy measures:

\text{Maximal probability: }p_{max}=max\{p_k\}_{k=1}^K\\\text{Entropy: H}(p)=-\sum_{k=1}^Kp_k\log_2(p_k)_\omega

The maximal probability represents a direct representation of certainty, while entropy describes the average level of information in a random variable. Even though a softmax output should represent the data uncertainty, one cannot tell from a single prediction how large the amount of model uncertainty is that affects this specific prediction as well.

4.1.2 Measuring model uncertainty in classification tasks

As already discussed in Sect. 3, a single softmax prediction is not a very reliable way for uncertainty quantification since it is often badly calibrated (Smith and Gal 2018) and does not have any information about the certainty of the model itself has on this specific output (Smith and Gal 2018).——仅仅通过softmax的结果并不能可靠地去量化uncertainty,并且也不包含有关模型本身对预测output的certainty的任何信息。

An (approximated) posterior distribution p(\theta|D) on the learned model parameters can help to receive better uncertainty estimates.有了这个后验分布,the softmax output本身也成为了一个随机变量,并且可以进一步地评估它的variation,即uncertainty。

For simplicity, we denote p(y|\theta,x) also as p and it will be clear from context whether p depends on \theta or not. 而衡量 p 是否与 \theta 有关的最常见的方式有mutual information (MI), the expected Kullback–Leibler Divergence (EKL), and the predictive variance. Basically, all these measures compute the expected divergence between the (stochastic) softmax output and the expected softmax output

\hat{p}=\mathbb{E}_{\theta\sim p(\theta|D)}[p(y|x,\theta]

  • Mutual Information

The MI uses entropy to measure the mutual dependence between two variables. In the described case, the difference between the information given in the expected softmax output and the expected information in the softmax output is compared, i.e.

\mathrm{MI}(\theta,y|x,D)=\mathrm{H}[\hat{p}]-\mathbb{E}_{\theta\sim p(\theta|D)}\mathrm{H}[p(y|x,\theta)]

Smith and Gal (2018) pointed out that the MI is minimal when the knowledge about model parameters does not increase the information in the final prediction. Therefore, the MI can be interpreted as a measure of model uncertainty.

  • The Expected KL

The Kullback–Leibler divergence measures the divergence between two given probability distributions. The EKL can be used to measure the (expected) divergence among the possible softmax outputs,

\mathbb{E}_{\theta\sim p(\theta|D)}[KL(\hat{p}\parallel p)]=\mathbb{E}_{\theta\sim p(\theta|D)}\left[\sum_{i=1}^K\hat{p}_i\log\left(\frac{\hat{p}_i}{p_i}\right)\right]

which can also be interpreted as a measure of uncertainty on the model’s output and therefore represents the model uncertainty.

  • The predictive variance

The predictive variance evaluates the variance on the (random) softmax outputs, i.e.

\sigma(p)=\mathbb{E}_{\theta\sim p(\theta|D)}[(p-\hat{p})^2]

  • 如何估计 \hat{p} ?

\hat{p}\approx\frac1M\sum_{i=1}^Mp^i

4.1.3 Measuring distributional uncertainty in classification tasks

尽管以上的uncertainty measures被广泛用于捕获BNN、ensemble methods以及test-time augmentation得到的多种prediction之间的多样性,但是它们无法捕获输入数据或OOD样本中的distributional shifts。

考虑这样一个场景,  如果所有的predictor都分配了high probability mass给错误的类别标签,这将使不同的预测之间趋于统一,这时网络对预测似乎是certain的,预测本身的uncertainty将变得很低。对于OOD样本,可能的解决方案是使用EDL或者直接关注网络输出的logit。如果网络对于当前样本在任一类别上的质量分配/logit都较低,则该样本趋向于是OOD的。

4.2 Evaluating uncertainty in regression tasks

4.2.1 Measuring data uncertainty in regression predictions

在分类任务中,网络将输出所有可能类别的概率分布。而与此不同,回归任务只做逐点的估计/预测,没有任何数据不确定性的信息。如Section 3所述,一个常见的解决方法是让网络去预测概率分布的参数,比如正态分布的mean vector \mu 与standard deviation \sigma,之后我们就可以直接用它们来表示data uncertainty

The prediction of the standard deviation allows an analytical description that the (unknown) true value is within a specific region. The interval that covers the true value with a probability of \alpha (under the assumption that the predicted distribution is correct) is given by (需要确认)

\left[\widehat{y}-\frac12\Phi^{-1}(\alpha)\cdot\sigma;\widehat{y}+\frac12\Phi^{-1}(\alpha)\cdot\sigma\right]

where \Phi^{-1} is the quantile function, the inverse of the cumulative probability function.

除此之外,一些工作还提出了直接预测所谓的prediction interval (PI)的方法,

PI(x)=[B_l,B_u]

这个区间提供了预测值的可取范围(均匀分布),而这种方法的certainty则可以直接通过测量此区间的长度来衡量。这里介绍两个指标,

  1. Mean Prediction Interval Width (MPIW)
  2. Prediction Interval Coverage Probability (PICP)

The PICP represents the percentage of test predictions that fall into a prediction interval and is defined as

\mathrm{PICP}=\frac cn

where n is the total number of predictions and c is the number of ground truth values that are actually captured by the predicted intervals.

4.2.2 Measuring model uncertainty in regression predictions

回归任务和分类任务的model uncertainty之间没有差异,可以使用类似的方法测量。比如,大部分情况下可以通过approximate an average prediction and measure the divergence among the single predictions.

4.3 Evaluating uncertainty in segmentation tasks

分割任务中的不确定性评估与分类问题十分相似,比如using approximates of Bayesian inference (Nair et al. 2020; Roy et al. 2019; LaBonte et al. 2019; Eaton-Rosen et al. 2018; McClure et al. 2019; Soleimany et al. 2019; Soberanis-Mukul et al. 2020; Seebock et al. 2020) 或者test-time augmentation(Wang et al. 2019).

In the context of segmentation, the uncertainty in pixel-wise segmentation is measured using confidence intervals (LaBonte et al. 2019; Eaton-Rosen et al. 2018), the predictive variance (Soleimany et al. 2019; Seebock et al. 2020), the predictive entropy (Roy et al. 2019; Wang et al. 2019; McClure et al. 2019; Soberanis-Mukul et al. 2020) or the mutual information (Nair et al. 2020).

The uncertainty in structure (volume) estimation is obtained by averaging over all pixel-wise uncertainty estimates (Seebock et al. 2020; McClure et al. 2019). The quality of volume uncertainties is assessed by evaluating the coefficient of variation, the average Dice score, or the intersection over union (Roy et al. 2019; Wang et al. 2019).

以上两段提到的这几篇文献可以读一下

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/844145.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在项目中集成Web端数据库操作:推荐工具一览

在项目中集成Web端数据库操作:推荐工具一览 博主猫头虎的技术世界 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能! 专栏链接: 🔗 精选专栏: 《面试题大全》 — 面试准备的宝典!《IDEA开发秘籍…

JAVA基础|File,IO流

File类只能对文件本身进行操作,不能读写文件里面存储的数据 IO流就是对文件进行读写的 一. File类 (一)创建对象 import java.io.File;public class FileTest1 {public static void main(String[] args) {// 1. 创建一个File对象&#xff…

将AVI转换为高质量的MPEG方法!

第 1 部分:使用牛学长转码大师将AVI快速转换为MPEG。 牛学长转码大师是市场上第一款可用于将 AVI 转换为 MPEG 而不会造成质量损失的转换器。该工具具有大量功能,使其在用户中如此受欢迎。以下是一些值得一提的功能。 牛学长转码大师的主要特点&#x…

Reddit是什么?跨境独立站卖家如何用Reddit营销?

在互联网时代,社交媒体营销已成为品牌推广的重要手段。Reddit,作为一个充满活力的社区平台,正逐渐受到越来越多跨境独立站卖家的关注。如果你在独立站引流方面遇到瓶颈,不妨了解一下Reddit这个平台。本文将介绍Reddit是什么&#…

计算机电子书籍资源转载分享

这篇会很简略,一个博主的宝藏,被我发现了,而且是去年2023年更新的,里面计算机网络的第八版书籍都有(谢希仁编著) 这是该博主的github上面发布的:zhangyachen/ComputerArchitectureAndCppBooks:…

鸿蒙ArkUI-X跨语言调用说明:【平台桥接开发指南(Android)Bridge API】

arkui-x.bridge.d.ts (平台桥接) 本模块提供ArkUI端和Android或iOS平台端消息通信的功能,包括数据传输、方法调用和事件调用。需配套平台端API使用,Android侧请参考[BridgePlugin],iOS侧参考[BridgePlugin]。 说明: 开发前请熟悉…

Jmeter 安装教程:简单易懂

随着互联网的不断发展,网站和应用程序的性能测试变得越来越重要。Apache JMeter 是一款广泛使用的性能测试工具,它强大且使用广泛,适用于各种性能测试需求。不论你是刚刚接触性能测试的新手,还是一位有经验的测试工程师&#xff0…

通过花生壳对git服务器做内网穿透

很长一段时间内公司的git服务器只能够在公司内网访问,最近出差的同事比较多,通过外网访问git服务器的需求也迫在眉睫,于是选择了贝锐“花生壳”做内网穿透处理。 首先去贝锐官网购买花生壳映射,我选择的是个人标准版本&#xff0c…

内存卡频频提示格式化?数据恢复全攻略

内存卡提示需要格式化 在数字时代,内存卡作为我们存储数据的常用设备,广泛应用于手机、相机、无人机等多种设备中。然而,不少用户在使用过程中会突然遭遇一个令人头疼的问题——内存卡提示需要格式化。这一提示往往伴随着数据的丢失风险&…

采用全自动贴片机来组装和满足回流焊工艺,列产品小,效率高,低输出纹波—— TPVT-W5系列

TPVT-W5系列是一款标准的表面贴装电源模块,完全实现采用全自动贴片机来组装和满足回流焊工艺,大大提高产能和降低人工费用。此系列产品小,效率高,低输出纹波及提供3000V以上的直流电压隔离,SMD封装。

Android framework修改,禁止指定包名的apk安装到设备上(基于Android10.0.0-r41)

文章目录 Android framework修改,禁止指定包名的apk安装到设备上(基于Android10.0.0-r41)1.新增接口提供给上层调用2.在pms中实现新增的接口3.找到preparePackageLI方法。4.测试验证 Android framework修改,禁止指定包名的apk安装到设备上(基于Android10…

钛媒体首发 | 百度沈抖回应大模型价格战:希望大家别再天天拉表格比价格

ITValue “有这个时间,不如去卷场景、卷应用。” 作者|张帅 编辑|盖虹达 首发|钛媒体APP ITValue 钛媒体App 5月28日消息,在2024智能经济论坛上,百度集团执行副总裁、百度智能云事业群总裁沈抖介绍了文心系…

免费,Python蓝桥杯等级考试真题--第16级(含答案解析和代码)

Python蓝桥杯等级考试真题–第16级 一、 选择题 答案:B 解析:(75)//212//26,故答案为B。 答案:B 解析:因为x15,所以range(2,15),i的取值为2-14&a…

Java+mysql酒店管理系统

1.引言 1.1编写的目的 本文档为酒店管理系统需求分析报告,为酒店管理系统的设计的主要依据,主要针对酒店管理系统的概要设计和详细设计人员,作为项目验收的主要依据。 1.2背景 本软件全称为阳光酒店管理系统。 1.3 参考资料 …

云平台教程 | 手把手教你GSEA富集分析和解读

爱基百客云平台小工具使用 1.1 爱基百客云平台之GSEA分析 1.2 GSEA富集分析原理图 1.3 GSEA富集分析过程 1.4 参数设置 1.5 任务查看 1.6 结果 1.6.1 富集结果表格 1.6.2 富集可视化图解读 01 爱基百客云平台小工具使用 首先,打开爱基百客官网:http://w…

STM32——启动文件选择及启动文件宏定义

文章目录 前提:以STM32F1xx系列芯片为例(有方法,其他系列一样)启动文件选择对应启动文件的寻找方法对应宏定义#define的寻找方法另外 前提:以STM32F1xx系列芯片为例(有方法,其他系列一样&#x…

时间|基于SprinBoot+vue的时间管理系统(源码+数据库+文档)

时间管理系统 目录 基于SprinBootvue的时间管理系统 一、前言 二、系统设计 三、系统功能设计 1管理员功能模块 2用户功能模块 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主介绍:✌️大厂码农…

VMware vSphere Distributed Services Engine 和利用 DPU 实现网络加速

VMware相关学习专栏:虚拟化技术 vSphere 8.0 通过加速数据处理单元 (DPU) 上的网络功能实现了突破性的工作负载性能。 vSphere 8.0 通过加速 DPU 上的网络功能实现了突破性工作负载性能,从而满足现代分布式工作负载的吞吐量和延迟需求。借助 vSphere Dis…

物联网都有什么优缺点?——青创智通

工业物联网平台解决方案 物联网,这个曾经似乎遥不可及的科技概念,如今已逐渐渗透到我们生活的方方面面。从智能家居到智能工业,从智能医疗到智能城市,物联网技术正在改变着我们的世界。 然而,正如任何一项技术一样&a…

解决 git:OpenSSL SSL_read: SSL_ERROR_SYSCALL, errno 0

解决 git:OpenSSL SSL_read: SSL_ERROR_SYSCALL, errno 0 问题 git pull报错:fatal: unable to access ‘https://github.com/aircrushin/ultrav-music.git/’: Failed to connect to github.com port 443 after 21077 ms: Couldn’t connect to serve…