计算机视觉之可做什么

1、计算机视觉的应用

  计算机视觉在我们生活中已经有了很广泛的应用,在我们可见、不可见;可感知、不可感知的地方,深深地影响了我们的生活、生产方式。

  • 日常生活:美颜相机、火车站刷脸进站、线上办理业务的身份认证、自动驾驶等等
  • 医学领域:医学影像分析、疾病筛查、病理学图像分析、药物研发、皮肤病检测、运动和康复治疗等等。
  • 工业领域:质量与缺陷检测、自动化生产线和机器人、自动化物流和仓储管理、尺寸测量、几何分析、包装和标签识别、安全与安防监控、3D视觉等等。
  • 农业领域:作物监测与健康分析、精准农业(精准施肥、灌溉)、杂草识别与自动除草、果实成熟度检测与自动采摘、牲畜监测与健康管理、种子质量检测、产量预测等等。
  • 城市治理:智能交通管理、公共安全与安防监控、人群管理与公共秩序维护、智能停车管理、智能建筑与社区管理、智慧零售与城市商业管理等等。
  • 商业领域:智能零售、客户行为分析、人脸支付、个性化广告、虚拟试衣和增强现实购物、商品监控与库存管理、防盗与安全监控、自动化物流与供应链管理、电子商务中的视觉搜索、品牌保护与假货识别、数字人等等。
      计算机视觉在我们社会各方面都有深入的应用,各种名词眼花缭乱,让人应接不暇,看起来让人找不到头绪,这些眼花缭乱的应用都是由计算机视觉一些基础任务组成:图像分类、目标检测、目标分割、图像生成、视觉多模态,这些基础任务最基本的原理都是一样的:数值回归。

2、视觉基础任务

2.1 图像分类

  图像分类是根据图像中的内容把类别标签分配给图像。比如我们生活中的刷脸就有一个步骤是图像分类,即把类别标签分给人脸。
  图像分类是怎么做的呢?图像在计算机中是一堆数据,不同内容的数据不一样,直观经验是直接对比这些数据距离的远近,也就是这些数据的相似程度,但是图像是矩形的,目标不可能正好也是矩形的,也就是说图像中有背景,而且同一类目标的会存在外观上的差别,比如颜色;即使同一个目标的也可能存在柔性变化、姿态变化。比如下图鸟的图片,鸟有正对摄像机,有侧对摄像机的;有的鸟嘴张开了,有的闭着的;有的头歪着,有的正的,有的背景时天空,有的背景时地面,等等这些因素都会影响算法的分类准确性。因此需要能获取能描述目标本质的特征,而不是看起来的特征,比如人有两条腿和两条胳膊,不能因为某个人少了一条就说不是人。

鸟的图片

  因此,首先让要分类的标签内容占据图像的主要部分,尽量减少背景的影响;然后利用一定手段获取图像特征,使得获取的特征具有一定抗干扰能力,如抗光照变化,柔性目标外形变化等等;最后利用分类器将图像划分到某一个类中。

2.2 目标检测

  目标检测是从图像中把所需要的目标定位出来,并给出类别标签。目标检测中包含了两个部分:找到目标位置和确定目标的类别(即分类)。位置一般用矩形框表示,如下图所示。
在这里插入图片描述

目标检测示意

  目标检测是在一张完整的图像中,把占图像比较小的目标识别和定位出来。目标检测里的分类不是整张图的分类,而是图像中某个区域的分类,确定这块区域的标签信息。
  我们人定位识别某个目标是一个非常自然而且似乎是一起完成的,对我们人来说似乎是非常具象的。图像在计算机里是一堆数字,虽然我们知道这些数字表示图像,但是如果把这些数字给我们看,我们是无法知道里面有什么的。那计算机怎么定位识别目标的呢?这些数字经过显示器能让我们区分不同的目标,表明这些数字是有规律的,并且数字之间存在一定的关联,才使得人能够看明白里面的内容。

2.3 目标分割

  目标分割和目标检测有些类似,都是确定某个区域的像素是否属于某个目标类别;不同的是目标分割确定图像哪些像素属于目标,是像素级别的判别,理想情况下,目标分割不包含背景的像素。目标分割中包含了两个部分:确定像素是否属于目标以及目标的类别(即分类)。目标分割相对于目标检测来说,更加定准定位目标。如下图所示,矩形框是目标检测的结果,斑马上透明色是目标分割的结果,分割精细的描述了目标的边界。
在这里插入图片描述

目标分割示意
  我们人的视觉系统很容易检测到目标的边界,也即目标分割,即使目标和背景颜色很接近。目标分割对于计算机来说,并不是一件容易的事情。和检测类似,计算机面对一堆数字,如何判断每个像素的类别是什么,比如目标本身颜色/纹理变化就很丰富、目标外观和背景很接近等等,这些都会对分割造成一定负面的影响。

2.4图像/视频生成

  图像/视频生成是根据一定的输入而生成图像/视频。图像生成相对来说比较简单,应用比较广。可以文生图,也可以图生图。文生图很多人都不陌生,很多人在工作中直接会用到;图生图就是要输入图像,生成另一幅图像,像老图像修复、灰度图像上色、美颜、超分等等都可以看作是图生图。下图是在文生图网站上生成的图,我给的文本是高原草原风光,但是生成的图完全不符合,这也说明视觉算法很多时候也会失灵的。
在这里插入图片描述

文生图
  图像/视频生成相对来说是一个更为复杂和难的问题,特别是视频。生成需要根据输入的内容,生成满足需求的像素值。比如上面的文生图,需要根据给的文本生成对应的图像,这要求模型能理解文本是什么,然后能生成描述的内容,并且画面的内容要符合人类的预期。这需要模型在训练时候不仅见过相关元素,而且学会如何组织这些元素。我们人也无法想象我们没见过的东西,也无法把一些元素组织起来形成我们从未见过的场景。

2.5视觉多模态

  视觉多模态是最近几年才火爆的,输入是视觉和其他的数据(如文本、语音等),不同的模型可以完成不同的任务,如生成、检测、图像描述等等。下图是智谱AI的CogVLM论文里的实验图,给模型一张图,一个prompt,模型根据这两个条件来生成对应的描述。视觉多模态还有一个应用:开放词汇,目标是让模型学习对应目标的图像、词汇,从而让模型能基于新的目标词汇在图像中找出/判断目标。
在这里插入图片描述

图像描述
  视觉多模态主要是对图像的理解,或根据人给的条件(即prompt)对图像进行描述。这个大模型一般都能做的比较好,但是容易出现所谓的幻觉,需要很好的prompt来消除幻觉。

3、视觉算法演变

3.1 黎明前黑暗——深度学习之前的方法

  早期的特征是人通过观察和数学上的推导获取的特征,再利用一些数学上的一些原理定义分类器,从而实现对目标的分类。这时期的算法在实验室条件,也就是严格控制环境条件下能取得不错的效果,但是基本上无法推广使用。这阶段主要方法haar+adaboost、HoG+SVM、LBP、PCA等等。

3.2 黎明——深度学习方法

  我们现在处于黎明时期。这个时期,深度学习方法使得视觉算法获得了一定的社会应用,但是在有些时候也会出错,但是要么人可以忍受,要么用于辅助人的工作。不管怎样,是真的可以用了。这阶段的算法结构基础是卷积神经网络和Transformer。

3.3 未来

  视觉算法未来会是什么样,现在无法预测,但是未来算法的数据基础很可能现在已经完善了,只是尚未到其爆发的时候。

4、总结

  视觉算法已经获得了很多的应用,不仅仅是传统的分类、分割、检测获得应用,多模态大模型也逐步在各种场景有应用。
  但是算法在应用中会遇到很多问题,这些问题归根到底主要是成本问题。因为算法在应用中是一个系统,而不仅仅是算法,系统其他部分也需要占用资源。如果为了追求效果而把算法模型做的很大,需要的资源就很多,这样成本就很高,特别是GPU资源。有的算法集成到低端的端侧芯片里,这些单薄的芯片里,不仅仅要运行算法,还有其他的业务需要运行,导致资源异常紧张,导致这个的主要原因就是成本。因为成本高了,愿意付费的用户就少了,企业可能入不敷出,所以为了保证企业生存,企业需要平衡各方面的因素。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/56234.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

供应链PC实操落地实践|得物技术

目录 一、背景 二、实操模式 三、快捷码设计和使用 1. 快捷码布局 2. 快捷码的准确识别 3. 快捷码的高亮反馈 4. 快捷码打印和黏贴建议 四、问题复盘 1. 基准体验的梳理 五、实操环境检测 1. 实操环境的安装和配置 2. 实操环境检测能力的使用流程 3. 实操检测能力的技术架构 4.…

Vue 3 数组变更详解:哪些操作会修改原数组?| 笔记

Vue 3 使用 Proxy 来侦测响应式对象的变化,数组作为常用数据类型,自然也被 Vue 3 自动侦测和管理。在处理数组时,了解哪些操作会修改原数组,哪些操作不会修改原数组,对高效编写 Vue 应用程序至关重要。 本文将详细介绍…

LeetCode 面试经典150题 Z字形变换

题目: 将一个给定字符串 s 根据给定的行数 numRows ,以从上往下、从左到右进行 Z 字形排列。 比如输入字符串为 "PAYPALISHIRING" 行数为 3 时,排列如下: P A H N A P L S I I G Y I R 之后,你…

windows recvfrom错误10014

使用windows socket的udp客户端与linux udp服务端通讯,windows发送数据正常,接收偶尔不正常,但是通过抓包发现服务端是发送了数据给客户端的,网上找了很急都没解决,最后发现是windows与linux下 recvfrom 最后一个参数有…

CSS——文字打字机效果

CSS——文字打字机效果 本文通过纯 CSS 实现文字的打字机效果&#xff0c;然后借助 JS 实现了扩展。 typewriter 基本思路 使用伪元素覆盖原文字&#xff0c;并且使用伪元素模拟闪烁的光标效果。 具体流程 首先是一些基本的设置 <!DOCTYPE html> <html lang"…

什么是Qseven?模块电脑(核心板)规范标准简介二

1.概念 Qseven是一种通用的、小尺寸计算机模块标准&#xff0c;适用于需要低功耗、低成本和高性能的应用。 Qseven模块电脑&#xff08;核心板&#xff09;采用230Pin金手指连接器 2.Qseven的起源 Qseven最初是由Congatec、SECO、MSC三家欧洲公司于2008年发起&#xff0c;旨在…

Python中的SQLAlchemy:解锁数据库操作的新世界

引言 SQLAlchemy是一个Python SQL工具包和ORM&#xff0c;它提供了全面的企业级持久性模式。通过SQLAlchemy&#xff0c;你可以使用Python类来定义数据库表&#xff0c;并使用面向对象的方式来进行数据库操作&#xff0c;如查询、更新等。这种ORM方法不仅使代码更加简洁易读&a…

基因科技领军企业——桐树基因完成D轮融资,创新科技引领生命科学

2024年10月8日&#xff0c;无锡桐树生物科技有限公司&#xff08;以下简称桐树基因&#xff09;正式完成过亿元人民币D轮融资。本轮融资由无锡市梁溪科创产业投资基金&#xff08;博华资本管理&#xff09;领投&#xff0c;江苏建道创业投资有限公司跟投&#xff0c;总额过亿元…

简单谈谈Spring 中Aware是什么

在spring中&#xff0c;aware是spring提供的一种扩展机制 在一般情况中&#xff0c;是不需要感知容器的存在的&#xff0c;spring 会帮我们自动装配完成。 但是在一些特定的场景下&#xff0c;比如我需要获取spring容器中的某个对象&#xff0c;那么就需要获取到 spring 上下文…

大数据学习---快速了解clickhouse数据库

ClickHouse数据库介绍 ClickHouse是一款由Yandex开发的列式数据库管理系统&#xff08;DBMS&#xff09;&#xff0c;适用于在线分析处理&#xff08;OLAP&#xff09;场景。它具有高性能、可扩展性、实时更新等特点&#xff0c;适用于处理大规模数据。 特点 列式存储&#x…

【数据结构】二叉树(一)遍历

导言 前面以及有了堆的基础&#xff0c;现在来学习二叉树。二叉树的学习和前面的数据结构很不一样&#xff0c;前面我们主要学习用数据结构储存数据&#xff0c;以及实际手搓数据结构的增删查改&#xff1b;而学习二叉树主要是为我们以后学搜索二叉树以及后面的AVL树等数据结构…

Android中的View绘制流程

Android中的View绘制流程是一个复杂而精细的过程&#xff0c;它确保了应用程序中的用户界面能够准确、高效地呈现在用户眼前。以下将详细阐述Android View的绘制流程&#xff0c;包括测量&#xff08;Measure&#xff09;、布局&#xff08;Layout&#xff09;和绘制&#xff0…

2024.10.10计算机外部设备及调试培训

授课老师&#xff1a;杨戬 1.计算机组成 cpu&#xff0c;主板&#xff0c;内存&#xff0c;硬盘&#xff0c;电源&#xff0c;显示器&#xff0c;键盘和鼠标&#xff0c;光驱和显卡&#xff0c;其他外部设备。 2.虚拟机专业版转换 由于我们在2024.10.8的培训中已经安装了wi…

GPT4o,GPTo1-preview, 拼

兄弟们GPT刚开的 需要上车的扣&#xff0c;工作用 大家一起PIN分摊点压力。 在当今数字化的时代&#xff0c;程序员这一职业已经从幕后走到了前台&#xff0c;成为推动科技进步和社会变革的关键力量。编写代码、解决问题、不断学习新技术&#xff0c;程序员们的日常充满了挑战与…

React基础知识

说明&#xff1a;react版本为 18.3.1 React是什么 React由Meta公司研发&#xff0c;是一个用于构建Web和原生交互界面的库。&#xff08;开发基于浏览器的web应用和基于mac和android的移动应用&#xff09;React的优势 1.相较于传统基于DOM开发的优势&#xff1a;组件化的开…

【物流配送中心选址问题】基于退火算法混合粒子群算法

课题名称&#xff1a; 基于退火算法混合粒子群算法的物流配送中心选址问题 改进方向&#xff1a;模拟退火算法优化粒子群算法 代码获取方式&#xff08;付费&#xff09;&#xff1a; 模型说明&#xff1a; 待补充 Matlab仿真结果&#xff1a; 1. 模型优化后的仿真结果 2…

Java入门:11.抽象类,接口,instanceof,类关系,克隆

1 JDK中的包 JDK JRE 开发工具集&#xff08;javac.exe&#xff09; JRE JVM java类库 JVM java 虚拟机 jdk中自带了许多的包&#xff08;类&#xff09; &#xff0c; 常用的有 java.lang 该包中的类&#xff0c;不需要引用&#xff0c;可以直接使用。 例如&#xff1…

Flash Attention:高效注意力机制的突破

近年来&#xff0c;注意力机制(Attention)已成为自然语言处理和深度学习领域的重要工具。然而&#xff0c;传统的注意力实现在处理长序列时存在计算和内存效率低下的问题。为了解决这一挑战&#xff0c;研究者们提出了Flash Attention&#xff0c;一种快速、内存高效的注意力算…

人类与人工智能的和谐关系

人类与人工智能的和谐关系 打不过就加入吧,人类在人工智能为基础的智能机器面前 毫无优势可言,这方面的介绍 见我之前的文章《智能机器是世界上的新物种》 第一、人不要想着与机器对抗 人不要想着与机器竞争&#xff0c;或者是比赛&#xff0c;哪怕规则都是人类定的&#xf…

vscode中安装python的包

首先需要调出命令行。然后运行代码&#xff0c;找到你所需要的环境。 PS C:\Users\Administrator\AppData\Local\ESRI\conda\envs\arcgispro-env> conda env list # conda environments: #C:\ProgramData\Anaconda3 base * C:\Users\Administrator\.con…