什么是图像标注?
图像标注是与您交互的许多人工智能产品的基础,并且是计算机视觉(CV)领域重要的过程之一。在图像标注过程中,数据标注员使用标签或元数据来标记AI模型学习识别的数据特征。然后,这些图像标注的数据被用于训练机器模型,使计算机在见到无标记的新数据时识别出这些特征。 小时候,你知道那个会“汪汪汪”叫的生物是“狗”。我们慢慢长大,发现那个捉迷藏把屁股对着外面的二愣子叫“二哈”,那个走路屁股一扭一扭叫柯基,那个主人已故却依然坚守在车站的“八公”是秋田犬。我们知道狗和猫不同,长大后也发现有一个长得很像兔子的小可爱叫“天竺鼠”。和人类一样,计算机也需要通过许多数之不尽的“动物知识”来学习如何对动物进行分类。图像标注就是以计算机可以理解的方式来提供这些“知识”。 随着致力于人工智能的公司能够获得的图像数据的不断增多,依赖于图像标注的项目的需求也飞速增长。对于在机器学习领域开展业务的企业来说,创建全面、有效的图像标注过程变得越来越重要。
图像标注类型
图像标注有较为常见的三种类型,企业可以根据项目的复杂程度及适用的应用场景选择一种标注类型。对于任何类型,所使用图像数据的质量越高,达到的AI预测结果就会越准确。
一、图像分类
分类是简单又快捷的图像标注方法,仅将一个标签应用于一张图像。例如,你可能想要浏览并分类一系列杂货店货架的图像,并确定哪些货架上有汽水哪些没有汽水。这种方法非常适合收集抽象信息,例如上面的示例,在一天中的时间内,图像中是否有汽车,或者从一开始就过滤掉不符合条件的图像。在提供单一、高级标签方面,分类是一种快捷的图像标注方法,但也是我们重点介绍的三种类型中较为模糊的一种,因为它并不指示图像中物体所在的位置。
二、目标检测
目标检测是让标注员在图像中标注出指定的特定物体。因此,如果分类法将图像归类为包含汽水,那么这种方法进一步表明汽水在图像中的位置,或者是你正在寻找的芬达汽水的位置。有几种方法可用于目标检测,包括以下的标注技术:
- 2D边界框(2D Bounding Box):标注员应用矩形和正方形来界定目标对象的位置。这是图像标注领域中常用的技术之一。
- 三维长方体(Cuboid)或3D边界框(3D Bounding Box):标注员将立方体应用于目标对象,以界定对象的位置和深度。
- 多边形分割(Polygonal Segmentation):当目标对象不对称且不容易放入盒子中时,标注员会使用复杂的多边形来界定对象的位置。
- 线和样条线标注(Lines and Splines):标注员标识图像中的关键边界线和曲线以分隔各个区域。例如,标注员可以为自动驾驶汽车图像标注项目中标记高速公路的各个车道。
由于目标检测允许重叠使用框或线,因此该方法仍不是高精确的方法。它提供的是物体的一般位置,同时也是相对较快的标注过程。
三、语义分割(Semantic Segmentation)
语义分割通过确保图像的每个组成部分仅属于一个类别来解决物体检测的重叠问题。通俗的来说就是语义分割是对区域内的像素分类而不是目标分类。因此需要标注员为每个像素分配类别(例如行人、汽车或标志)。这有助于训练AI模型如何识别和分类特定对象,即使这些对象被遮挡。例如,如果有一个购物车遮挡了图像的一部分,则可以使用语义分割来识别直至像素级的芬达汽水是什么样,以便模型能够识别出它虽然被遮挡了但实际上仍是芬达汽水。 值得注意的是,图像标注方法并不仅仅局限于上述三种类型。其他的方法包括专门用于人脸识别的类型,例如特征点标注(标注员使用人体姿势点标注来绘制特征,例如眼、鼻和口)。图像转录是另一种常见的标记方法:当数据中包含多模式信息,即图片中有文字并且需要提取该文字时,就会用到这种方法。
图像标注的常见应用场景
要罗列一份清单来囊括目前利用图像标注的所有应用程序,篇幅将长达数千页。目前,我们将重点介绍各大行业中比较热门的使用场景。
农业
农民可以借助无人机和卫星图像,利用AI来获得无尽的好处,包括估算作物产量、评估土壤状况等。John Deere公司提供一个令人激动的图像标注实例。该公司对相机图像进行标注,以在像素级别区分杂草和农作物。然后,他们参考这些经标注的图像数据将杀虫剂仅施用在生长杂草的区域而不是整个田地中,从而每年节省大量农药开支。
医疗
医生们正在利用AI解决方案进行辅助诊疗。例如,AI可以检查放射学影像,以确定存在某些癌症的可能性。在一个示例中,团队使用数千个标有癌病灶和非癌病灶的扫描图像数据来训练模型,直至机器学会自动区分。AI并不是真的取代医生,但可以在做肠镜的时候提高病灶诊断的准确性。关于计算机视觉如何应用在医疗领域,澳鹏创建了一个网络研讨会,点击了解《计算机视觉技术如何赋能医疗领域》。
制造业
制造商发现图像标注可以帮助他们采集仓库中的库存信息。他们正在训练计算机评估感官图像数据,以确定产品何时缺货、何时补货。某些制造商还使用图像标注项目监控工厂内的基础设施。他们的团队标注设备的图像数据,然后用这些数据训练计算机识别特定的缺陷或故障,从而推动更快的修复和更好的整体维护。
金融
尽管金融业远未充分利用图像标注项目的能力,但仍有数家公司在此领域掀起热潮。例如,凯克萨银行(Caixabank)使用人脸识别技术验证从ATM取款的客户的身份。这是通过名为“人脸关键点标注”的图像标注过程完成的,该过程可绘制眼和口等面部特征。人脸识别提供了一种更快、更精确的身份确认方法,从而降低了欺诈的可能性。图像标注技术也被广泛应用于标注要报销的单据或通过移动设备存入的支票(OCR技术)。
零售
图像标注对于许多不同的AI使用场景也不可或缺。你是否想要使用AI为特定商品提供正确的搜索结果,例如为客户提供“牛仔裤”的搜索结果?要构建可以浏览产品目录并提供用户所需结果的模型,就需要使用图像标注。有几家零售商还在自己的商店中试用机器人。这些机器人会收集货架图像,以确定产品是否库存量低或缺货,从而决策是否需要再订购。这些机器人还可以使用一种称为图像转录的过程,通过扫描“条形码图像”收集产品信息。
如何使图像标注更容易
正如建立任何AI模型都需要克服重重挑战一样,图像标注也非常困难。AI需要大量高质量的训练数据才能正常工作(计算机可以学习的用例越多,它的表现就越佳),需要有多样化的团队来标注这些数据,还需要全面的数据流程来执行。对于许多企业而言,要投入的时间、金钱和人力成本通常都高得不切实际。对于那些没有内部资源来完成端到端图像标注项目的客户,向第三方供应商寻求帮助是合理的选择。这些供应商可以提供图像数据、标注员、工具和专家团队来协助进行这种大规模的工作。 特别是,在进行图像标注时,往往会遇到一系列的问题。图像可能光线欠佳,目标对象可能被遮挡,部分图像可能连人眼也无法识别。在开始图像标注项目之前,团队需要谨慎考量在此过程中会碰到的各种问题、必须认真考虑如何命名标签和区分类别,因为这些因素可能会影响标注员的标注判断,并最终使机器混淆。对于过于相似的类别如何制定区分标准是需要团队慎重思考的问题。 如何正确地带领团队完成精确图像标注项目,将决定是否会产出高质量的训练数据,而这也恰恰是制定AI战略投资中不可或缺的环节。
澳鹏图像标注专家Liz Otto Hamel的见解
澳鹏依靠自身的专家团队帮助完成适用于客户机器学习工具的图像标注项目。Liz Otto Hamel是我们的一名产品经理,她将帮助确保“澳鹏数据标注平台”在提供高质量图像标注功能和工具方面超越行业标准。Liz具有学术研究背景并拥有斯坦福大学博士学位。她对评估和满足图像标注需求的建议包括:
- 定义范围。首先对项目的业务目标作出明确而严格的定义。所标注数据的需求(包括标注几何形状、元数据、本体和格式)将来自项目的业务目标。利用业务价值指导图像标注项目利于保持明确的工作方向。
- 制定迭代计划。为需要标注的一组数据制定初始标准,然后开始试运行。自己标注一小部分数据。在迭代过程中,你发现可能需要在项目制定的标准中考虑边缘案例。迭代计划将促使你的团队与数据标注供应商开展合作,第三方标注公司能够提供的多元标注工具和专业知识涵盖了各种标注用例,并可以按照你的团队的需求进行修改。
- 制定整合计划。为了防止数据偏差(模型在自然环境中看到的数据类型的变化),你需要构建可扩展的自动化训练数据流程,以便用新数据不断训练模型。整合计划将促进你的团队与数据标注供应商开展合作,第三方标注公司可以根据你需要训练数据量的增加进行快速扩展。与模型进行交互的受众越多,为保持模型新鲜度所需的图像标注量也增加得越快。从项目开始就要制定一个整合计划。