一、计算机视觉概述
1. 计算机视觉定义
- 人工智能(AI)的一个重要分支
- 旨在使计算机和系统能够从图像或多维数据中“理解”和“解释”视觉世界
- 通过模拟人类视觉系统,计算机视觉技术能够自动执行诸如识别、分类、检测和跟踪等任务。
2. 计算机视觉与人类视觉
二、计算机视觉的基本原理
1. 计算机视觉的处理对象
1-1 数字图像的定义及数字图像处理的任务
1-2 数字图像中一个像素点可能有的颜色种类
在彩色图像中,如果每个像素的颜色由 RGB(红、绿、蓝)三种颜色通道表示,并且每个通道的值范围是 0-255(即8位表示),那么一个像素的颜色总数可以通过以下公式计算:
计算公式:颜色总数=16,777,216
解释:
-
每个通道的值范围:
- 每个通道(红、绿、蓝)可以取 256 种不同的值(从0到255)。
- 例如:
- 红色通道值为0表示没有红色,255表示红色最强。
- 绿色和蓝色通道的值类似。
-
组合方式:
- 每个像素的颜色是由红、绿、蓝三种颜色通道的值组合而成。
- 因此,所有可能的颜色组合总数是 256×256×256=16,777,216256×256×256=16,777,216。
-
结果:
- 一个像素在RGB颜色模型中可以表示 16,777,216种颜色,也就是通常所说的 “1600万种颜色”。
2. 计算机视觉的工作原理
2-1 图像数字化的两个过程
-
采样:
- 将连续的模拟图像转换为离散的数字表示。具体来说,是将图像分成一个个像素网格,每个像素对应图像中的一个固定位置。
-
量化:
- 将每个像素的颜色和亮度信息转换为有限的离散值。例如,在RGB颜色模型中,每个颜色通道通常使用8位(0-255)的整数表示。
2-2 计算机视觉的基础工作原理
将图像或视频中的视觉信息转化为计算机可以处理的数字数据,并通过算法和模型进行分析和理解。
3. 计算机视觉的关键技术
任务类型 | 定义 | 输出形式 | 常用方法 | 应用场景 |
---|---|---|---|---|
图像分类 | 将整张图像分配到预定义的类别标签中,例如识别一张图片是“猫”还是“狗”。 | 单一类别标签 | - 卷积神经网络(CNN)如AlexNet、ResNet - 传统方法如SIFT + SVM | - 图像搜索引擎 - 医疗影像诊断 - 自动标签生成 |
目标检测 | 识别图像中的多个对象类别,并确定每个对象的位置,通常以边界框表示。 | 多个类别标签及其边界框坐标 | - 单阶段检测器:YOLO、SSD - 双阶段检测器:Faster R-CNN | - 自动驾驶 - 视频监控 - 零售业库存管理 |
语义分割 | 将图像中的每个像素分类为特定类别,关注“什么”而不是“在哪”。 | 与输入图像尺寸相同的分类图,每像素一个标签 | - 全卷积网络(FCN) - U-Net - DeepLab系列 | - 医学影像分析 - 农业作物识别 - 自动驾驶 |
实例分割 | 不仅进行语义分割,还需区分同一类别的不同实例,为每个对象的每个像素赋予唯一标识。 | 每个实例的精确分割掩码及类别标签 | - Mask R-CNN - PANet - YOLACT | - 增强现实(AR) - 机器人导航 - 视频编辑 |
任务类型 | 复杂性 | 所需信息 |
---|---|---|
图像分类 | 最基础 | 整张图像的整体信息 |
目标检测 | 中等 | 多个对象的类别及其位置信息 |
语义分割 | 较高 | 每个像素的类别信息 |
实例分割 | 最高 | 每个像素的类别及实例唯一标识 |
4. 计算机视觉技术的应用
三、图像分类基础
1. 图像分类的定义
1-1 图像分类的定义
图像分类的核心是从给定的分类集合中给图像分配一个标签。
主要特点
- 输入:一张未经分割的完整图像。
- 输出:一个或多个类别标签,表示图像所属的类别。
- 任务类型:
- 单标签分类:每张图像仅属于一个类别。
- 多标签分类:每张图像可以属于多个类别。
2. 图像分类的类别
2-1 单标签与多标签
2-2 跨物种语义级别的图像分类
2-3 子类细粒度图像分类
2-4 多标签图像分类
3. 图像分类遇到的挑战
4. 图像分类的常用数据集与网络
5. 图像分类的典型应用
四、目标检测基础
1. 目标检测的定义
1-1 目标检测
- 识别图中有哪些物体
- 确定他们的类别
- 标出各自在图中的位置
1-2 图像分类与目标检测的区别
2. 目标检测的评估指标
2-1 交并比:IoU
2-2 精确度(Precision)和召回率(Recall)
2-3 平均精度值:mAP
- AP:在不同召回率阈值下,Precision 的平均值。指标总结模型在特定类别上的综合性能。
- mAP:对所有类别的 AP 取平均值,作为整体模型性能的指标。
3. 目标检测遇到的挑战
4. 目标检测的常用数据集与网络
5. 目标检测的典型应用
五、图像分割基础
1. 图像分割的定义
- 目标是将图像划分为多个具有语义意义的区域或对象,以实现对图像内容的精细理解。
- 与图像分类和目标检测不同,图像分割关注于图像中每个像素的具体归属,提供更高层次的图像解析。
2. 图像分割的类别
2-1 语义分割
- 定义:将图像中的每个像素分类到预定义的类别中,但不区分同类别的不同实例。
- 应用:自动驾驶中的道路和行人识别、医学影像中的器官分割。
- 同一类的像素都被归为一类
- 像素级,背景分割(感兴趣区域和不感兴趣区域也做分割)
2-2 实例分割
- 定义:不仅进行语义分割,还区分同类别的不同实例,为每个对象提供唯一的标识。
- 应用:增强现实(AR)、视频编辑、机器人导航。
- 物体分割
2-3 全景分割
- 定义:结合语义分割和实例分割,既区分不同类别的像素,又区分同类别的不同实例,提供一份完整的图像解析。
- 应用:复杂场景理解,如城市街景的全面解析。
- 背景分割 + 物体分割