图像标注是什么?及其类型和应用

什么是图像标注?

图像标注是与您交互的许多人工智能产品的基础,并且是计算机视觉(CV)领域重要的过程之一。在图像标注过程中,数据标注员使用标签或元数据来标记AI模型学习识别的数据特征。然后,这些图像标注的数据被用于训练机器模型,使计算机在见到无标记的新数据时识别出这些特征。 小时候,你知道那个会“汪汪汪”叫的生物是“狗”。我们慢慢长大,发现那个捉迷藏把屁股对着外面的二愣子叫“二哈”,那个走路屁股一扭一扭叫柯基,那个主人已故却依然坚守在车站的“八公”是秋田犬。我们知道狗和猫不同,长大后也发现有一个长得很像兔子的小可爱叫“天竺鼠”。和人类一样,计算机也需要通过许多数之不尽的“动物知识”来学习如何对动物进行分类。图像标注就是以计算机可以理解的方式来提供这些“知识”。 随着致力于人工智能的公司能够获得的图像数据的不断增多,依赖于图像标注的项目的需求也飞速增长。对于在机器学习领域开展业务的企业来说,创建全面、有效的图像标注过程变得越来越重要。  

图像标注类型

图像标注类型

 图像标注有较为常见的三种类型,企业可以根据项目的复杂程度及适用的应用场景选择一种标注类型。对于任何类型,所使用图像数据的质量越高,达到的AI预测结果就会越准确。

一、图像分类

分类是简单又快捷的图像标注方法,仅将一个标签应用于一张图像。例如,你可能想要浏览并分类一系列杂货店货架的图像,并确定哪些货架上有汽水哪些没有汽水。这种方法非常适合收集抽象信息,例如上面的示例,在一天中的时间内,图像中是否有汽车,或者从一开始就过滤掉不符合条件的图像。在提供单一、高级标签方面,分类是一种快捷的图像标注方法,但也是我们重点介绍的三种类型中较为模糊的一种,因为它并不指示图像中物体所在的位置。

二、目标检测

目标检测是让标注员在图像中标注出指定的特定物体。因此,如果分类法将图像归类为包含汽水,那么这种方法进一步表明汽水在图像中的位置,或者是你正在寻找的芬达汽水的位置。有几种方法可用于目标检测,包括以下的标注技术:

  • 2D边界框(2D Bounding Box):标注员应用矩形和正方形来界定目标对象的位置。这是图像标注领域中常用的技术之一。
  • 三维长方体(Cuboid)或3D边界框(3D Bounding Box):标注员将立方体应用于目标对象,以界定对象的位置和深度。
  • 多边形分割(Polygonal Segmentation):当目标对象不对称且不容易放入盒子中时,标注员会使用复杂的多边形来界定对象的位置。
  • 线和样条线标注(Lines and Splines):标注员标识图像中的关键边界线和曲线以分隔各个区域。例如,标注员可以为自动驾驶汽车图像标注项目中标记高速公路的各个车道。

由于目标检测允许重叠使用框或线,因此该方法仍不是高精确的方法。它提供的是物体的一般位置,同时也是相对较快的标注过程。

三、语义分割(Semantic Segmentation)

语义分割通过确保图像的每个组成部分仅属于一个类别来解决物体检测的重叠问题。通俗的来说就是语义分割是对区域内的像素分类而不是目标分类。因此需要标注员为每个像素分配类别(例如行人、汽车或标志)。这有助于训练AI模型如何识别和分类特定对象,即使这些对象被遮挡。例如,如果有一个购物车遮挡了图像的一部分,则可以使用语义分割来识别直至像素级的芬达汽水是什么样,以便模型能够识别出它虽然被遮挡了但实际上仍是芬达汽水。 值得注意的是,图像标注方法并不仅仅局限于上述三种类型。其他的方法包括专门用于人脸识别的类型,例如特征点标注(标注员使用人体姿势点标注来绘制特征,例如眼、鼻和口)。图像转录是另一种常见的标记方法:当数据中包含多模式信息,即图片中有文字并且需要提取该文字时,就会用到这种方法。  

图像标注的常见应用场景

要罗列一份清单来囊括目前利用图像标注的所有应用程序,篇幅将长达数千页。目前,我们将重点介绍各大行业中比较热门的使用场景。

农业

农民可以借助无人机和卫星图像,利用AI来获得无尽的好处,包括估算作物产量、评估土壤状况等。John Deere公司提供一个令人激动的图像标注实例。该公司对相机图像进行标注,以在像素级别区分杂草和农作物。然后,他们参考这些经标注的图像数据将杀虫剂仅施用在生长杂草的区域而不是整个田地中,从而每年节省大量农药开支。

医疗

医生们正在利用AI解决方案进行辅助诊疗。例如,AI可以检查放射学影像,以确定存在某些癌症的可能性。在一个示例中,团队使用数千个标有癌病灶和非癌病灶的扫描图像数据来训练模型,直至机器学会自动区分。AI并不是真的取代医生,但可以在做肠镜的时候提高病灶诊断的准确性。关于计算机视觉如何应用在医疗领域,澳鹏创建了一个网络研讨会,点击了解《计算机视觉技术如何赋能医疗领域》。

制造业

制造商发现图像标注可以帮助他们采集仓库中的库存信息。他们正在训练计算机评估感官图像数据,以确定产品何时缺货、何时补货。某些制造商还使用图像标注项目监控工厂内的基础设施。他们的团队标注设备的图像数据,然后用这些数据训练计算机识别特定的缺陷或故障,从而推动更快的修复和更好的整体维护。

金融

尽管金融业远未充分利用图像标注项目的能力,但仍有数家公司在此领域掀起热潮。例如,凯克萨银行(Caixabank)使用人脸识别技术验证从ATM取款的客户的身份。这是通过名为“人脸关键点标注”的图像标注过程完成的,该过程可绘制眼和口等面部特征。人脸识别提供了一种更快、更精确的身份确认方法,从而降低了欺诈的可能性。图像标注技术也被广泛应用于标注要报销的单据或通过移动设备存入的支票(OCR技术)。

零售

图像标注对于许多不同的AI使用场景也不可或缺。你是否想要使用AI为特定商品提供正确的搜索结果,例如为客户提供“牛仔裤”的搜索结果?要构建可以浏览产品目录并提供用户所需结果的模型,就需要使用图像标注。有几家零售商还在自己的商店中试用机器人。这些机器人会收集货架图像,以确定产品是否库存量低或缺货,从而决策是否需要再订购。这些机器人还可以使用一种称为图像转录的过程,通过扫描“条形码图像”收集产品信息。  

如何使图像标注更容易

正如建立任何AI模型都需要克服重重挑战一样,图像标注也非常困难。AI需要大量高质量的训练数据才能正常工作(计算机可以学习的用例越多,它的表现就越佳),需要有多样化的团队来标注这些数据,还需要全面的数据流程来执行。对于许多企业而言,要投入的时间、金钱和人力成本通常都高得不切实际。对于那些没有内部资源来完成端到端图像标注项目的客户,向第三方供应商寻求帮助是合理的选择。这些供应商可以提供图像数据、标注员、工具和专家团队来协助进行这种大规模的工作。 特别是,在进行图像标注时,往往会遇到一系列的问题。图像可能光线欠佳,目标对象可能被遮挡,部分图像可能连人眼也无法识别。在开始图像标注项目之前,团队需要谨慎考量在此过程中会碰到的各种问题、必须认真考虑如何命名标签和区分类别,因为这些因素可能会影响标注员的标注判断,并最终使机器混淆。对于过于相似的类别如何制定区分标准是需要团队慎重思考的问题。 如何正确地带领团队完成精确图像标注项目,将决定是否会产出高质量的训练数据,而这也恰恰是制定AI战略投资中不可或缺的环节。  

澳鹏图像标注专家Liz Otto Hamel的见解

澳鹏依靠自身的专家团队帮助完成适用于客户机器学习工具的图像标注项目。Liz Otto Hamel是我们的一名产品经理,她将帮助确保“澳鹏数据标注平台”在提供高质量图像标注功能和工具方面超越行业标准。Liz具有学术研究背景并拥有斯坦福大学博士学位。她对评估和满足图像标注需求的建议包括:

  • 定义范围。首先对项目的业务目标作出明确而严格的定义。所标注数据的需求(包括标注几何形状、元数据、本体和格式)将来自项目的业务目标。利用业务价值指导图像标注项目利于保持明确的工作方向。
  • 制定迭代计划。为需要标注的一组数据制定初始标准,然后开始试运行。自己标注一小部分数据。在迭代过程中,你发现可能需要在项目制定的标准中考虑边缘案例。迭代计划将促使你的团队与数据标注供应商开展合作,第三方标注公司能够提供的多元标注工具和专业知识涵盖了各种标注用例,并可以按照你的团队的需求进行修改。
  • 制定整合计划。为了防止数据偏差(模型在自然环境中看到的数据类型的变化),你需要构建可扩展的自动化训练数据流程,以便用新数据不断训练模型。整合计划将促进你的团队与数据标注供应商开展合作,第三方标注公司可以根据你需要训练数据量的增加进行快速扩展。与模型进行交互的受众越多,为保持模型新鲜度所需的图像标注量也增加得越快。从项目开始就要制定一个整合计划。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/4471.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Triton_server部署学习笔记

下载镜像 docker pill http://nvcr.io/nvidia/tritonserver:22.07-py3 docker run --gpus all -itd -p8000:8000 -p8001:8001 -p8002:8002 -v /home/ai-developer/server/docs/examples/model_repository/:/models nvcr.io/nvidia/tritonserver:22.07-py3 docker exec -it a5…

Spring+SpringMvc+Mybatis整合小Demo

原始方式整合SSM 不使用spring-mybatis包 项目内容 整合ssm完成对account表新增和查询的操作 项目大体结构 创建mavenWeb项目 pom文件中引入依赖 spring核心、aspectj(aop)、spring-jdbc(jdbcTemplate)、spring-tx(事务)、 数据源:mysql、c3p0、mybatis my…

vue2的 element 表格单元格合并

<template><div><el-table show-summary :summary-method"getSummaries" :span-method"objectSpanMethod" :data"tableData" row-key"id" ref"tableDom" border><el-table-column label"序号&quo…

【golang】12、gin 源码解析

文章目录 快速使用返回响应路由匹配pathqueryMultipart/Urlencoded Form 解析请求MultipartFrom MiddleWare github.com/gin-gonic/gin 是 golang 的 web 框架&#xff0c;其用字典树做路由匹配、支持中间件&#xff0c;本文介绍其源码实现。 快速使用 package mainimport (&…

ylb-接口6验证手机号是否注册

总览&#xff1a; 1、service处理 在api模块下service包&#xff0c;创建一个UserService接口&#xff1a;&#xff08;根据手机号查询数据queryByPhone(String phone)&#xff09; package com.bjpowernode.api.service;import com.bjpowernode.api.model.User; import co…

ASL/CS系列音视频转换方案芯片,Typec拓展坞方案芯片

音视频单转方案芯片&#xff1a; CS5565 Typec转HDMI 8K 60HZ转换方案 可替代RTD2173 PS196 CS5801 HDMI转eDP/DP方案 可替代LT6711 CS5212 DP转VGA转换方案 可PIN TO PIN 替代RTD2166 CS5211 E…

❤️创意网页:HTML5 Canvas技术实现绚丽多彩的烟花特效

✨博主&#xff1a;命运之光 &#x1f338;专栏&#xff1a;Python星辰秘典 &#x1f433;专栏&#xff1a;web开发&#xff08;简单好用又好看&#xff09; ❤️专栏&#xff1a;Java经典程序设计 ☀️博主的其他文章&#xff1a;点击进入博主的主页 前言&#xff1a;欢迎踏入…

【java】【基础2】程序流程控制

目录 一、最经典的三种执行顺序 二、分支结构 2.1 if 2.2 switch 2.3 if与switch区别 三、循环结构 3.1 for循环 3.2 while循环 3.3 do-while循环 3.4 三种循环区别 3.5 补充知识&#xff1a;死循环 3.6 补充知识&#xff1a;循环嵌套 四、跳转关键字&#xff1a;br…

Mysql如何查询出两个日期之间的所有日期?

问题&#xff1a; 有时我们在生成一些时间轴类似的数据时&#xff0c;要求数据库不管有没有指定天的数据&#xff0c;都要生成该时间节点&#xff0c;可用mysql.help_topic来解决此类问题&#xff0c;通过序列和日期函数相结合来满足我们的业务需求。 例如&#xff1a;查询20…

Web开发的富文本编辑器CKEditor介绍,Django有库ckeditor_uploader对它进行支持,django-ckeditor安装方法及使用注意事项

当需要在网页应用程序中提供富文本编辑功能时&#xff0c;CKEditor是一个流行的选择。CKEditor是一个开源的JavaScript富文本编辑器&#xff0c;它提供了强大的功能和用户友好的界面&#xff0c;使用户可以轻松创建和编辑格式化的文本内容。 以下是CKEditor的一些主要特性&…

rabbitMQ杂记

消息队列应用场景 消息队列中间件是分布式系统中重要的组件&#xff0c;主要解决应用耦合&#xff0c;异步消息&#xff0c;流量 削锋等问题实现高性能&#xff0c;高可用&#xff0c;可伸缩和最终一致性&#xff1a; 解耦&#xff1a; 异步&#xff1a; 削峰&#xff1a; 常…

3.12 Bootstrap 超大屏幕(Jumbotron)

文章目录 Bootstrap 超大屏幕&#xff08;Jumbotron&#xff09; Bootstrap 超大屏幕&#xff08;Jumbotron&#xff09; 下面将讲解 Bootstrap 支持的另一个特性&#xff0c;超大屏幕&#xff08;Jumbotron&#xff09;。顾名思义该组件可以增加标题的大小&#xff0c;并为登陆…

详解Windows安装分布式版本控制系统git

文章目录 前言下载安装相关链接 前言 git是一个分布式版本控制软件&#xff0c;最初由Linux创作者Linus Torvalds创作&#xff0c;并于2015年以GPL许可协议发布。git易于学习&#xff0c;占用空间小&#xff0c;性能却快如闪电&#xff0c;可以快速、 高效的管理从小到大的项目…

DeFi新篇章 | Sui上原生订单簿DeepBook正式上线

随着原生去中心化中央限价订单簿&#xff08; Central Limit Order Book&#xff0c;CLOB&#xff09;DeepBook的推出&#xff0c;Sui上的DeFi开启了新篇章。DeepBook由一群Sui贡献者共同构建&#xff0c;为新一代DeFi应用提供了一个稳定的流动性层。 通过DeepBook&#xff0c…

mac批量修改文件名为不同名字

mac批量修改文件名为不同名字怎么弄&#xff1f;很多小伙伴通过私信向我求助&#xff0c;用什么方法可以在mac电脑上批量修改文件名称&#xff0c;将大量文件修改成不同的名称。这可能是一项比较麻烦的操作&#xff0c;在电脑上进行过批量重命名的小伙伴都知道&#xff0c;一般…

Redis源码篇 - Reactor设计模式 和 Redis Reactor设计模式

Reactor &#xff1a;反应器模式或者应答者模式&#xff0c;它是一种基于事件驱动的设计模式。拥有一个或者多个输入源&#xff0c;通过反应器分发给多个worker线程处理&#xff0c;实现并发场景下事件处理。 此图网上找的&#xff0c;画的很好&#xff1a;

C# 抽象类和接口详解

参考视频链接&#xff1a;https://www.bilibili.com/video/BV13b411b7Ht?p27&vd_source10065785c7e10360d831474364e0d3e3 代码的进化与重构&#xff0c;从基本代码的讲解到逐步抽象成抽象类和接口。 文章目录 最初定义利用继承改进对方法进一步改进利用虚函数进行改进利…

如何设计光场2.0(聚焦型光场相机)系统参数

1. 系统参数设计 目前的硬件系统的现状&#xff1a;主透镜50mm&#xff0c;MLA&#xff1a;15*15&#xff0c;d0.5mm&#xff0c;f15mm&#xff0c;s4.8um 开普勒型光场系统&#xff1a; 首先我们需要确定系统的M&#xff0c;M参数表示单个位置的点能被多少个小微透镜成像&am…

python3GUI--仿win10任务管理器By:PyQt5(附UI源码)

文章目录 一&#xff0e;前言二&#xff0e;展示1.主界面1.进程2.性能1.CPU2.内存 3.简略信息4.详细信息5.新建任务 三&#xff0e;设计思路1.UI设计1.主界面1.进程2.性能3.详细信息4.新建任务5.图表信息组件 2.代码整体设计1.项目设计心得2.项目设计其他心得 3.其他心得 四&am…

Minecraft 1.20.x Forge模组开发 01.Idea开发环境配置

我们本次来进行Minecraft 1.20.x 模组开发环境配置教程的介绍。 效果演示 效果演示 效果演示 1.首先我们需要下载Java17和1.20模组开发包: Java17下载官网