视觉分割的定义与性能度量

文章目录

      • 视觉分割的定义
        • 语义分割(Semantic Segmentation)
        • 实例分割(instance Segmentation)
        • 全景分割(Panoptic Segmentation)
        • 视频语义分割(Video Semantic Segmentation)
        • 视频实例分割(Video instance Segmentation)
        • 视频全景分割(Video Panoptic Segmentation)
        • 各任务对比
      • 视觉分割任务的指标与度量
        • Intersection over Union (IoU)交并比
        • Mean Average Precision(mAP,平均精度)
        • 在常见的分割论文中使用的有关数据集、任务和度量标准的精彩总结

视觉分割的定义

下图来自李飞飞教授和其学生讲授的CS-231N

在这里插入图片描述

在transformer时代,目标检测和实例分割其实基本上可以看作是一个东西了。

语义分割(Semantic Segmentation)

其实是对输入图像进行像素级分类。

语义分割

语义分割不仅能分辨出图像中的物体,还能在像素级理解这些物体的边界,在深度学习时代,语义分割问题其实是一个密集预测问题。

实例分割(instance Segmentation)

在这里插入图片描述

不仅为每个像素分配一个类别标签,还能将同一类别的不同对象区分开来。

既能识别每个物体的类别,又能识别这些物体的单个实例。

理解不同物体之间的关系。

比语义分割和目标检测都更具挑战性。

全景分割(Panoptic Segmentation)

全景分割

  • 结合语义分割和实例分割,提供对场景的全面理解。

  • 为每个像素贴上类别标签和实例标签。

  • 全景分割法分配一个语义标签(如 “车”、“树”、“路”),并区分同一类别的多个实例(如车 1、车 2)。这意味着所有像素都会被赋予一个类别标签,属于 "事物 "类别(可数对象,如人、汽车等)的像素还会被区分为不同的实例。

  • "全景 "指的是 “看到一切”,反映了这项任务的目的是整合语义分割(能很好地处理 "物 "类,如天空、道路、草地等)和实例分割(能很好地处理 "物 "类)的优势,前者是无定形的,不可数的,而后者是可数的。

视频语义分割(Video Semantic Segmentation)
  1. classifies each pixel in an image into a certain class along the video.

  2. explore the temporal segmentation consistency

视频实例分割(Video instance Segmentation)
  1. 在像素级别分割和跟踪前景物体。

  2. 探索时间一致性(temporal consistency)和实例 ID 一致性(instance ID consistency)。

  3. 比图像实例分割更复杂,因为它需要处理物体运动、外观变化、遮挡以及各帧标签的时间一致性等问题。

  4. 算法还需要将当前帧中的分割实例与之前帧中的实例联系起来,以确保它们在不同帧的实例ID一致性。

视频全景分割(Video Panoptic Segmentation)

视频全景分割

  • 识别视频序列中每一帧中的每个像素并对其进行分类,并在不同帧中保持实例(单个对象)ID的一致性。
  • 这是一项复杂的任务,因为需要处理运动、外观变化、遮挡以及保持各帧标签的时间一致性(temporal consistency )。
  • 在视频的每一帧中,视频全景分割的目的是为每个像素分配一个类别标签(语义分割),区分同一类别的不同实例(实例分割),并在视频序列的不同帧中保持这些实例标签的一致性。这包括识别哪些像素属于 "物 "类(如天空、草地、道路),哪些属于 "事 "类(如人、车、狗),并在整个视频中跟踪 "事 "类的各个实例。
各任务对比

在这里插入图片描述

参考论文

  1. Transformer-Based Visual Segmentation: A Survey, arxiv, 2023.
  2. Largescale video panoptic segmentation in the wild: A benchmark, CVPR-2022.

视觉分割任务的指标与度量

Intersection over Union (IoU)交并比

IoU是一种量化预测分割与实况(实际)分割之间重叠程度的指标。对于给定类别,IoU 的计算方法是将预测分割与实际分割之间的重叠面积除以结合面积(即预测分割或实际分割所覆盖的总面积)。

当语义分割包含多个类别,而不仅仅是一个类别时,要用到 mIoU。
平均联合交叉(mIoU)就是所有类别的平均 IoU。
要计算 mIoU,首先要分别计算每个类别的 IoU,然后将这些 IoU 值相加,再除以类别数。

mIoU 分值从 0 到 1 不等,1 表示所有类别的预测分割与实际分割完全重合,0 表示完全没有重合。mIoU 值越高,表示分割性能越好。

Mean Average Precision(mAP,平均精度)

mAP 是Mean Average Precision的缩写,是用于评估目标检测实例分割模型性能的常用指标。

  • 准确率(Precision): 准确率是模型识别的实例中正确识别实例的比例。
  • 召回率(Recall): Recall 是在所有相关实例(本应被识别的实例)中被正确识别的实例的比例。

在实例分割任务中,对于每个预测对象,我们都会计算其与真实对象的交并比(IoU)。如果 IoU 大于某个阈值(如 0.5),则预测结果被视为真阳性;反之,则为假阳性。

mAP

然后,我们绘制不同 IoU 阈值下的精度-召回曲线。平均精度(AP)就是精度-召回曲线下的面积。如果我们计算不同 IoU 阈值下的 AP,并取这些值的平均值,就得到了 mAP。

11点法求AP:

在这里插入图片描述

从本质上讲,mAP 量化了实例分割模型在不同 IoU 阈值下的性能。mAP 越高,说明模型性能越好。这一指标既考虑了分割的准确性(通过 IoU),也考虑了模型正确识别对象的能力(通过精确度和召回率)。

在常见的分割论文中使用的有关数据集、任务和度量标准的精彩总结

有关数据集、任务和度量标准的总结

参考论文:Transformer-Based Visual Segmentation: A Survey, arxiv, 2023.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/35639.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

云计算【第一阶段(21)】引导过程与服务控制

目录 一、linux操作系统引导过程 1.1、开机自检 1.2、MBR引导 1.3、GRUB菜单 1.4、加载 Linux 内核 1.5、init进程初始化 1.6、简述总结 1.7、初始化进程centos 6和7的区别 二、排除启动类故障 2.1、修复MBR扇区故障 2.1.1、 实验 2.2、修复grub引导故障 2.2.1、实…

基于redisson实现tomcat集群session共享

目录 1、环境 2、修改server.xml 3、修改context.xml 4、新增redisson配置文件 5、下载并复制2个Jar包到Tomcat Lib目录中 6、 安装redis 7、配置nginx负载均衡 8、配置测试页面 9、session共享测试验证 前言: 上篇中,Tomcat session复制及ses…

【UE5.3】笔记3-静态网格体,BSP

静态网格体组件 主要有两个属性 一个是静态网格体:对应的也就是模型,比如fbx,maya,obj等格式 一个是材质:由各种贴图、渲染设置等,比如unity里的shader BSP画刷: 打开放置Actor选项卡&#…

做到这九点,工作就无后顾之忧

大家好,今天又跟大家分享一篇,怎么在职场上做到挺起腰杆做事。全文共分9点,尤其最后一点最为重要。篇幅有点长,全文共计三千多字,请耐心看完。 如果您觉得对您有些帮助,点赞收藏关注。谢谢您的支持。 在职场…

嵌入式项目分享| 终极智能手表,全过程+全开源分享

这是一个非常完整的智能手表开源项目,功能齐全,且资料开源,如果你是:自己平时喜欢diy的工程师,想要提升开发技能的学生,马上要做毕设的大四学生,这个手表很值得一做,别错过了~~ 所有开源的资料以及原文链接见文末。 先来看下这个手表的功能: 首先,是一个可以佩戴的手…

windows10 无法识别双频合一的5Gwifi

windows10 无法识别双频合一的5Gwifi 在网络配置中指定 wireless mode 为802.11a 或802.11ac 这两个是 5G网络的协议,如果不存在则说明无线网卡不支持5G网络

修改docker中mongodb容器的时区

假设容器名称为mongodb,设置时区为上海时区的命令为: docker exec -it mongodb bash -c "ln -snf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime && echo Asia/Shanghai > /etc/timezone"验证时区更改: docker e…

51单片机STC89C52RC——9.1 DS1302涓流充电计时芯片

目录 目的/效果 一,STC单片机模块 二,DS1302计时器 2.1 特性/板子位置 2.1.1 特性 2.1.2 板子上的位置 2.2 针脚定义 2.3 数据传输 2.3.1 读数据 2.3.2 写数据 2.4 BCD码 2.5 可编程涓流充电器 2.6 时钟动态设置 三,创建Keil项目…

《数据赋能:一本书讲透数字化营销与运营》—— 从正确的数据观开始

基于数据打通的“全链路”营销是当下的“时髦”,应用它的前提是什么?深度营销和运营的关键数据如何获得?如何利用数据进行更精准的营销投放?如何利用数据优化投放的效果?如何促进消费者的转化,以及激活留存…

在 Postman 中使用 Body 进行 POST 请求

Postman 是开发者日常工具箱中不可缺少的一部分,特别是在 API 开发和调试环节中。 为什么使用 POST 请求 POST 请求用于向服务器发送数据,这些数据通常被处理后存储。与 GET 请求不同,POST 请求将数据嵌入请求体(Body&#xff0…

算法刷题日志 hot100 数组分类

文章目录 [169. 多数元素](https://leetcode.cn/problems/majority-element/)旋转图像215. 数组中的第K个最大元素](https://leetcode.cn/problems/kth-largest-element-in-an-array/description/)238. 除自身以外数组的乘积](https://leetcode.cn/problems/product-of-array-e…

HQChart使用教程30-K线图如何对接第3方数据40-日K叠加股票增量更新

HQChart使用教程30-K线图如何对接第3方数据40-日K叠加股票增量更新 叠加股票叠加日K更新Request 字段说明Data.symbol 协议截图返回json数据结构stock HQChart代码地址交流 叠加股票 示例地址:https://jones2000.github.io/HQChart/webhqchart.demo/samples/kline_index_edit.…

等保相关总结

等级划分准则 等保2.0基本框架 等保2.0变化解读 等级测评 3保1评 分保工作简介 分保工作流程 等保 等保工作流程:定级 -》备案 -》整改 -》测评 -》复核 关保 密评

【自监督-MIM】系列方法学习二

Masked image modeling 是一种训练深度学习模型的技术,尤其是在视觉领域,类似于自然语言处理中的掩码语言建模(Masked Language Modeling)。它通过在输入图像中随机遮挡(或称为掩码)部分区域,然后训练模型来预测这些被遮挡部分的内容,从而提高模型的视觉理解能力。 Ma…

linux应用开发基础知识(七)——管道和消息队列进程通信

管道通信 匿名管道 #include <unistd.h> int pipe(int pfd[2]);pfd[0]用于读管道&#xff0c;而pdf[1]用于写管道。 注意&#xff1a;匿名管道只能用于亲缘关系的进程之间通信。管道通道是单向的&#xff0c;一边读&#xff0c;另一边写。管道可以用于大于两个进程共…

怎么使用python进行整除取余求幂

怎么使用python进行整除取余求幂&#xff1f; 整除法是//&#xff0c;称为地板除&#xff0c;两个整数的除法仍然是整数。 10//33 3 求模运算是%&#xff0c;相当于mod&#xff0c;也就是计算除法的余数。 5%2 1 求幂运算使用两个连续的*&#xff0c;幂运算符比取反的优先级高…

2024 最新推广服务 API 推荐,助力业务腾飞

在数字化营销的浪潮中&#xff0c;API 服务正以其强大的功能和高效的特性&#xff0c;成为企业和开发者们实现精准推广、优化营销效果的得力助手。2024 年的今天&#xff0c;各种创新的 API 服务层出不穷&#xff0c;为广告投放、数据洞察等领域带来了前所未有的机遇。在接下来…

数字设计的秘密:原来有这么多创意玩法!

数字产品设计涵盖了各种学科和角色&#xff0c;但主要是人与数字设备或数字界面之间的互动。数字设计的两个主要部分是用户体验设计&#xff08;UX&#xff09;和用户界面设计&#xff08;UI&#xff09;。如果把数字产品的设计想象成人体&#xff0c;那么骨架就是代码&#xf…

从0-1搭建一个web项目vue3+vite+ts+element-plus(脚手架分析)

本章分析从0-1的搭建脚手架依赖 ObJack-Admin一款基于 Vue3.3、TypeScript、Vite3、Pinia、Element-Plus 开源的后台管理框架。在一定程度上节省您的开发效率。另外本项目还封装了一些常用组件、hooks、指令、动态路由、按钮级别权限控制等功能。感兴趣的小伙伴可以访问源码点个…

结构体(二)

今天来继续介绍我们有关结构体的相关知识 结构体的自引用 结构体的自引用&#xff0c;顾名思义嘛&#xff0c;就是在我们的结构体中再次引用该结构体&#xff0c;这一点跟我们的函数递归有异曲同工之妙&#xff0c;不了解函数递归的小伙伴可以移步到我之前做过的一期&#xf…