人工智能ACA（六）--计算机视觉基础

人工智能ACA（六）--计算机视觉基础

diannao/2025/7/2 18:54:23/文章来源:https://blog.csdn.net/u013013280/article/details/144695970

一、计算机视觉概述

1. 计算机视觉定义

人工智能（AI）的一个重要分支
旨在使计算机和系统能够从图像或多维数据中“理解”和“解释”视觉世界
通过模拟人类视觉系统，计算机视觉技术能够自动执行诸如识别、分类、检测和跟踪等任务。

2. 计算机视觉与人类视觉

二、计算机视觉的基本原理

1. 计算机视觉的处理对象

1-1 数字图像的定义及数字图像处理的任务

1-2 数字图像中一个像素点可能有的颜色种类

在彩色图像中，如果每个像素的颜色由 RGB（红、绿、蓝）三种颜色通道表示，并且每个通道的值范围是 0-255（即8位表示），那么一个像素的颜色总数可以通过以下公式计算：

计算公式：颜色总数=16,777,216

解释：

每个通道的值范围：
- 每个通道（红、绿、蓝）可以取 256 种不同的值（从0到255）。
- 例如：
  - 红色通道值为0表示没有红色，255表示红色最强。
  - 绿色和蓝色通道的值类似。
组合方式：
- 每个像素的颜色是由红、绿、蓝三种颜色通道的值组合而成。
- 因此，所有可能的颜色组合总数是 256×256×256=16,777,216256×256×256=16,777,216。
结果：
- 一个像素在RGB颜色模型中可以表示 16,777,216种颜色，也就是通常所说的 “1600万种颜色”。

2. 计算机视觉的工作原理

2-1 图像数字化的两个过程

采样：
- 将连续的模拟图像转换为离散的数字表示。具体来说，是将图像分成一个个像素网格，每个像素对应图像中的一个固定位置。
量化：
- 将每个像素的颜色和亮度信息转换为有限的离散值。例如，在RGB颜色模型中，每个颜色通道通常使用8位（0-255）的整数表示。

2-2 计算机视觉的基础工作原理

将图像或视频中的视觉信息转化为计算机可以处理的数字数据，并通过算法和模型进行分析和理解。

3. 计算机视觉的关键技术

任务类型	定义	输出形式	常用方法	应用场景
图像分类	将整张图像分配到预定义的类别标签中，例如识别一张图片是“猫”还是“狗”。	单一类别标签	- 卷积神经网络（CNN）如AlexNet、ResNet - 传统方法如SIFT + SVM	- 图像搜索引擎 - 医疗影像诊断 - 自动标签生成
目标检测	识别图像中的多个对象类别，并确定每个对象的位置，通常以边界框表示。	多个类别标签及其边界框坐标	- 单阶段检测器：YOLO、SSD - 双阶段检测器：Faster R-CNN	- 自动驾驶 - 视频监控 - 零售业库存管理
语义分割	将图像中的每个像素分类为特定类别，关注“什么”而不是“在哪”。	与输入图像尺寸相同的分类图，每像素一个标签	- 全卷积网络（FCN） - U-Net - DeepLab系列	- 医学影像分析 - 农业作物识别 - 自动驾驶
实例分割	不仅进行语义分割，还需区分同一类别的不同实例，为每个对象的每个像素赋予唯一标识。	每个实例的精确分割掩码及类别标签	- Mask R-CNN - PANet - YOLACT	- 增强现实（AR） - 机器人导航 - 视频编辑

任务类型	复杂性	所需信息
图像分类	最基础	整张图像的整体信息
目标检测	中等	多个对象的类别及其位置信息
语义分割	较高	每个像素的类别信息
实例分割	最高	每个像素的类别及实例唯一标识

4. 计算机视觉技术的应用

三、图像分类基础

1. 图像分类的定义

1-1 图像分类的定义

图像分类的核心是从给定的分类集合中给图像分配一个标签。

主要特点

输入：一张未经分割的完整图像。
输出：一个或多个类别标签，表示图像所属的类别。
任务类型：
- 单标签分类：每张图像仅属于一个类别。
- 多标签分类：每张图像可以属于多个类别。

2. 图像分类的类别

2-1 单标签与多标签

2-2 跨物种语义级别的图像分类

2-3 子类细粒度图像分类

2-4 多标签图像分类

3. 图像分类遇到的挑战

4. 图像分类的常用数据集与网络

5. 图像分类的典型应用

四、目标检测基础

1. 目标检测的定义

1-1 目标检测

识别图中有哪些物体
确定他们的类别
标出各自在图中的位置

1-2 图像分类与目标检测的区别

2. 目标检测的评估指标

2-1 交并比：IoU

2-2 精确度（Precision）和召回率（Recall）

2-3 平均精度值：mAP

AP：在不同召回率阈值下，Precision 的平均值。指标总结模型在特定类别上的综合性能。
mAP：对所有类别的 AP 取平均值，作为整体模型性能的指标。

3. 目标检测遇到的挑战

4. 目标检测的常用数据集与网络

5. 目标检测的典型应用

五、图像分割基础

1. 图像分割的定义

目标是将图像划分为多个具有语义意义的区域或对象，以实现对图像内容的精细理解。
与图像分类和目标检测不同，图像分割关注于图像中每个像素的具体归属，提供更高层次的图像解析。

2. 图像分割的类别

2-1 语义分割

定义：将图像中的每个像素分类到预定义的类别中，但不区分同类别的不同实例。
应用：自动驾驶中的道路和行人识别、医学影像中的器官分割。
同一类的像素都被归为一类
像素级，背景分割（感兴趣区域和不感兴趣区域也做分割）

2-2 实例分割

定义：不仅进行语义分割，还区分同类别的不同实例，为每个对象提供唯一的标识。
应用：增强现实（AR）、视频编辑、机器人导航。
物体分割

2-3 全景分割

定义：结合语义分割和实例分割，既区分不同类别的像素，又区分同类别的不同实例，提供一份完整的图像解析。
应用：复杂场景理解，如城市街景的全面解析。
背景分割 + 物体分割

3. 图像分割遇到挑战

4. 图像分割常用的数据集和网络

5. 图像分割的典型应用

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/65053.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

叉车作业如何确认安全距离——UWB测距防撞系统的应用

叉车作业如何确认安全距离——UWB测距防撞系统的应用

叉车在工业环境中运行，常常需要在狭窄的空间内完成货物的搬运和堆垛，这对操作员的技术水平和安全意识提出了极高的要求。传统的叉车作业依赖操作员的经验和视觉判断来确认安全距离，然而这种方式往往存在误差，特别是在视线受阻或光…

阅读更多...

基于深度学习(HyperLPR3框架)的中文车牌识别系统-搭建开发环境

基于深度学习(HyperLPR3框架)的中文车牌识别系统-搭建开发环境

本篇内容为搭建开发环境。包括：python开发环境，Qt/C开发环境，以及用到的各个库的安装和配置。一、Python开发环境搭建与配置 1、下载并安装Anaconda 我没有用最新的版本，安装的是 Anaconda3-2021.05-Windows-x86_64.exe&#…

阅读更多...

神经网络-AlexNet

神经网络-AlexNet

AlexNet是在2012年的ImageNet竞赛后，整理发表的文章，也是对CNN网络的衍生。网络结构 AlexNet网络结构如下图所示，网络分为了上下两部分，对应两个不同的GPU训练，可以更好的利用GPU算力。只有在特殊的网络层后&#x…

阅读更多...

【R语言遥感技术】“R+遥感”的水环境综合评价方法

【R语言遥感技术】“R+遥感”的水环境综合评价方法

R语言在遥感领域中是一个强大的工具，它提供了一系列的功能和优势，使得遥感数据的分析和应用更加高效和灵活。以下是R语言在遥感中的具体应用： 数据处理：R语言可以处理和清洗遥感数据，包括数据转换、滤波处理、去噪和数…

阅读更多...

深入理解 ThinkPHP：框架结构与核心概念详解

深入理解 ThinkPHP：框架结构与核心概念详解

深入理解 ThinkPHP：框架结构与核心概念详解 ThinkPHP 是一款广泛使用的 PHP 开发框架，以其高效性和灵活性受到开发者的青睐。要充分利用这一框架，理解其结构和核心概念是至关重要的。本文将详细解析 ThinkPHP 的框架结构及其重要概念&#x…

阅读更多...

OceanBase之primary_one概念学习

OceanBase之primary_one概念学习

OceanBase 集群通常有若干个zone组成，zone是(Availability Zone)的简写，代表一个可用区。zone本身是一逻辑概念，物理的zone可理解为一地理概念，对OceanBase来说，zone可以理解为副本的概念。从物理层面看，…

阅读更多...

硬件模块常使用的外部中断

硬件模块常使用的外部中断

对于STM32来说，想要获取的信号是外部驱动的很快的突发信号例1：旋转编码器的输出信号： 可能很久都不会拧它，不需要STM32做任何事情但是一拧它，就会有很多脉冲波形需要STM32接收信号是突发的，STM32不知道什…

阅读更多...

jupyter切换内核方法配置问题总结

jupyter切换内核方法配置问题总结

下面这个博客总结了3种不同的方法，很有调理，推荐尝试【最全指南】如何在 Jupyter Notebook 中切换/使用 conda 虚拟环境？ !!! 注意使用上面介绍的ipykernel方法2, 要在每一个希望被jupyter识别到的环境内【分别】安装ipykernel以及添加配置 …

阅读更多...

TCN-Transformer+LSTM多变量回归预测（Matlab）添加气泡图、散点密度图

TCN-Transformer+LSTM多变量回归预测（Matlab）添加气泡图、散点密度图

TCN-TransformerLSTM多变量回归预测（Matlab）添加气泡图、散点密度图目录 TCN-TransformerLSTM多变量回归预测（Matlab）添加气泡图、散点密度图预测效果基本介绍程序设计参考资料预测效果基本介绍基本介绍 1.双路创新&#xff…

阅读更多...

基于AI IDE 打造快速化的游戏LUA脚本的生成系统

基于AI IDE 打造快速化的游戏LUA脚本的生成系统

前面写了一篇关于使用AI IDE进行C安全开发的博客《使用AI IDE 助力 C 高性能安全开发！》， 得到许多同学们的喜欢，今天我们来继续在游戏开发中扩展一下AI的能力，看看能不能给游戏研发团队一些启发。在游戏研发中，Lua曾…

阅读更多...

windows nacos安装配置

windows nacos安装配置

GitHub下载压缩包解压目录（注意不要用中文路径） 在mysql先创建数据库nacos，再执行sql脚本配置数据库 #*************** Config Module Related Configurations ***************# ### If use MySQL as datasource: ### Deprecated conf…

阅读更多...

Redis 基本全局命令

Redis 基本全局命令

个人主页：C忠实粉丝欢迎点赞👍 收藏✨ 留言✉ 加关注💓本文由 C忠实粉丝原创 Redis 基本全局命令收录于专栏[redis] 本专栏旨在分享学习Redis的一点学习笔记，欢迎大家在评论区交流讨论💌 目录 KEYS EXISTS DEL…

阅读更多...

qt QZipReader详解

qt QZipReader详解

1、概述 QZipReader 是 Qt 中用于从 .zip 文件中读取和提取文件内容的类。它提供了便捷的方法来访问压缩包中的文件和目录，并允许你解压缩单个或多个文件。通过 QZipReader，你可以以编程方式读取 .zip 文件中的内容，并提取它们到目标目录中。…

阅读更多...

开发微信小程序的过程与心得

开发微信小程序的过程与心得

起因作为家长，我近期参与了学校的护学岗工作。在这个过程中，我发现需要使用水印相机来记录护学活动，但市面上大多数水印相机应用都要求开通会员才能使用完整功能。作为一名程序员，我决定利用自己的技术背景，开发一个…

阅读更多...

基于vue-popperjs的二次封装弹窗

基于vue-popperjs的二次封装弹窗

前言： 基于vue-popperjs的二次封装代码 <template><!-- 1. :appendToBody"true"是否把位置加到body外层标签上饿了么UI和antD是true，iview和vuetifyjs是false2. trigger属性触发方式，常用hover悬浮触发、clickToOpen鼠标…

阅读更多...

es6复习笔记】数值扩展（16）

es6复习笔记】数值扩展（16）

介绍在 JavaScript 中，数值扩展提供了一些额外的功能，使得处理数值变得更加方便。本教程将介绍一些常用的数值扩展方法和属性。 1. Number.EPSILON Number.EPSILON 是 JavaScript 表示的最小精度。它的值接近于 2.2204460492503130808472633361816E-…

阅读更多...

OpenAI 普及 ChatGPT，开通热线电话，近屿智能深耕AI培训

OpenAI 普及 ChatGPT，开通热线电话，近屿智能深耕AI培训

12月19日，在OpenAI直播活动的第10天，宣布允许用户通过电话或WhatsApp与ChatGPT进行交互。并在美国推出 ChatGPT 热线电话，用户拨打后可与 ChatGPT 进行语音对话。这项服务的一个亮点在于它兼容各种类型的通信设备——不论是现代智能手机如iP…

阅读更多...

007-spring-bean的相关配置（重要）

007-spring-bean的相关配置（重要）

spring-bean的相关配置

阅读更多...

黑马Java面试教程_P9_MySQL

黑马Java面试教程_P9_MySQL

系列博客目录文章目录系列博客目录前言1. 优化1.1 MySQL中，如何定位慢查询？面试文稿 1.2 面试官接着问：那这个SQL语句执行很慢,如何分析 ( 如何优化）呢?面试文稿 1.3 了解过索引吗?(什么是索引)1.4 继续问索引的底层数据结构…

阅读更多...

《OpenCV计算机视觉》-对图片的各种操作（均值、方框、高斯、中值滤波处理）及形态学处理

《OpenCV计算机视觉》-对图片的各种操作（均值、方框、高斯、中值滤波处理）及形态学处理

文章目录《OpenCV计算机视觉》-对图片的各种操作（均值、方框、高斯、中值滤波处理）边界填充阈值处理图像平滑处理生成椒盐图片均值滤波处理方框滤波处理高斯滤波处理中值滤波处理图像形态学腐蚀膨胀开运算闭运算顶帽和黑帽《OpenCV计算机视觉》-对图片…

阅读更多...

最新文章