构建像人类一样的AI或ML模型需要大量训练数据。要使模型做出决定并采取行动,就必须通过数据标注来训练模型,使其能够理解特定信息。 但是,什么是数据标注呢?数据标注是指对用于人工智能应用的数据进行分类和标注。我们必须针对特定用例正确组织和标注训练数据。借助高质量的人工标注数据,企业可构建和改进AI实施,创建提高客户体验的产品,如产品推荐、相关搜索引擎结果、计算机视觉、语音识别、聊天机器人等。 数据的主要类型包括文本、音频、图像和视频,而许多公司也在充分利用不同类型的数据。事实上,根据《2022年AI与机器学习现状》报告,各组织表示,与前一年相比,使用的数据类型增加了25%。由于不同的行业和工作场所要求的数据类型多种多样,加大对可靠训练数据投入的重要性前所未有。 接下来,让我们详细了解一下每种标注类型。我们会列举每种数据类型的实际用例,帮助您理解数据标注的不同类型。
文本标注
文本标注仍是最常用的数据标注类型。在《机器学习报告》中,有70%的受调查公司表示,他们非常依赖于文本数据。本质上,文本标注是指使用元数据标签突出关键词、短语或句子,以教会机器如何通过文字正确识别和理解人类情感。所突出的“情感”被用作训练数据,以提高机器在自然人类语言和数字文本交流方面的处理能力和参与度。 在文本标注中,准确性意味着一切。如果标注不当,则可能会导致误解,并且还会增加理解特定上下文中单词的难度。机器需要根据人类如何通过互联网交谈或互动,理解特定问题或观点的所有潜在措辞。 以聊天机器人为例。当消费者以一种机器不熟悉的方式提问时,机器可能无法理解问题,并提供解决方案。所涉及的文本标注越准确,机器就能越多地执行人类通常所需处理的耗时任务。这不仅能优化客户体验,还能帮助企业实现利润目标并更好地利用人力资源。 但是,您了解文本标注的不同形式吗?文本标注包括情绪、意图和搜索意图等各种标注类型。
情绪标注 Sentiment Annotation
情绪分析是指评估态度、情感和意见,最终提供有价值的洞察,为重要的商业决策提供参考。因此,在初始阶段,拥有正确的数据至关重要。 要获得这些数据,通常需要依靠人类标注员,因为他们可以进行不同网络平台的情绪评估和内容审核。从评论社交媒体和电子商务网站,到标记和报告亵渎、敏感或新兴关键词,人类特别善于分析情绪数据,因为他们了解细微差别和现代趋势、俚语和其他语言的使用。如果信息表述和理解不佳,可能会影响或破坏组织的声誉。
意图标注 Intent Annotation
随着人们越来越多地使用人机界面进行交流,机器必须能够理解自然语言和用户意图。如果机器无法识别意图,也就无法继续处理请求,并可能要求互动者重新组织语言。如果重新组织问题后,机器仍无法识别,便会将问题移交给人工来处理,而在这样的情况下,机器也就失去一开始存在的意义。 多意向数据收集和分类可将意向划分为若干关键类别,包括请求、命令、预订、推荐和确认等。这些类别可以帮助机器轻易理解查询背后的初始意图,从而更好地响应请求并找到解决方案。
语义标注 Semantic Annotation
语义标注包括将特定文档标记为与信息最相关的语义概念。这涉及到向文件添加元数据,用概念和描述性词语来丰富内容,解释文本的深度和意义。 语义标注既可以改进产品列表,又可以确保客户能够找到想要的产品。这有助于把浏览者转化为买家。语义标注服务通过标记产品标题和搜索查询中的各个语义构成,帮助训练算法,以识别各组成部分,提高总体搜索相关性。
命名实体标注 Named Entity Recognition
命名实体识别(NER)用于识别文本中的某些实体,以检测大型数据集中的关键信息。正式名称、地点、品牌名称和其他标识符等都是命名实体标注检测和整理的信息。 NER系统需要大量人工标注的训练数据。像澳鹏这样的企业会在广大用例中应用命名实体标注功能,例如帮助电子商务客户识别和标记一系列关键描述符,或帮助社交媒体公司标记实体,如人员、地点、公司、组织和标题,以帮助更好地定位广告内容。 多意向数据收集和分类可将文本意向划分为若干关键类别,包括请求、命令、预订、推荐和确认等。这些类别可以帮助机器理解查询背后的初始意图,从而更好地响应请求并找到解决方案。
微软必应&澳鹏:优化搜索质量
微软的搜索引擎必应需要大规模的数据集以不断提高其搜索结果的质量,并且与不同国家地区的文化相符。我们取得的成绩超出预期,促进微软搜索在新市场上迅速增长。 除了项目交付和管理,我们还提供了高质量数据集,以促进微软必应搜索质量不断提高。随着必应团队不断探索搜索质量体验的新高度,我们也在不断开发、测试和提出解决方案,以提高必应团队的数据质量。 点击此处,阅读完整的案例研究分析。
音频标注
如今,随着机器学习能力增强,无论在数字平台上录制的音频是什么格式,基本都能够被识别。因此,音频标注、语音数据转录和时间戳标注对企业来说成为可能。音频标注还包括特定语音和语调的转录,以及语言、方言和说话者人口特征的识别。 音频标注的使用场景不尽相同,有些用例需要非常特定的方法。例如:在安全和热线技术应用中,标记攻击性语音指示符和玻璃破碎等非语音声音,在紧急情况下非常有用。为对话或事件中的噪音和声音提供更多的语境信息,可以使人们更容易地充分理解情况。
Dialpad&澳鹏:音频转录和分类优化
Dialpad致力于改善与数据的对话。他们收集电话音频,用内部语音识别模型转录这些对话,并使用自然语言处理算法理解各对话。为了让每一个销售电话都能成功,他们利用这种一对一的对话来确定每个销售代表(以及整个公司)做得好和做得不好的地方。 在与澳鹏的竞争对手合作6个月之后,Dialpad发现,模型难以达到成功所需的精度阈值。和澳鹏合作仅仅数周后,Dialpad便成功创建模型所需的转录和NLP训练数据。现在,Dialpad的转录模型利用澳鹏平台进行音频转录和分类,以及内部转录验证和模型的输出。
图像标注
在数字化时代,图像标注可以被视为计算机最重要的功能之一,因为这可以通过视觉镜头或新的、具启发性的视角来解释世界。图像标注在广泛的应用中至关重要,包括计算机视觉、机器人视觉、面部识别以及依赖机器学习来解释图像的解决方案。要训练这些解决方案,必须以标识符、标题或关键字的形式为图像分配元数据。 从自动驾驶车辆使用的计算机视觉系统和挑选和排序产品的机器,到自动识别医疗状况的医疗应用程序,有许多用例需要大量带标注的图像。通过有效地训练这些系统,图像标注可以提高精度和准确性。
Adobe Stock&澳鹏:大批量图像打标
Adobe Stock是Adobe的一个旗舰产品,它是精选的高质量图像集合。图库本身规模惊人:拥有超过2亿条数据(包括1,500万个视频、3,500万个矢量、1,200万条可编辑数据,以及1.4亿张照片、插图、模板和3D数据)。 虽然听起来是一下不可能完成的任务,但是让这两亿个文件都能够被正确地搜索到,是非常重要的。面对此困境,Adobe需要一个快速有效的解决方案。 澳鹏提供极为精确的训练数据创建一个模型,该模型可以在库存超过1亿张、每天上传数十万张新图片的图库中分辨这些微妙的属性。这些训练数据帮助Adobe为其庞大的客户群提供最有价值的图像。用户无需滚动浏览类似图片的页面,即可快速找到最有用的图片,从而腾出时间创建有力的营销材料。通过人机协同的机器学习实践,Abode受益于客户可以依赖的更有效、更强大和更有用的模型。点击阅读Adobe Stock的图像打标案例分析。
视频标注
人工标注数据是机器学习成功的关键。在管理主观性、理解意图和处理歧义方面,人类比计算机要强得多。例如,决定搜索引擎结果是否相关时,需要许多人的输入才能达成共识。在训练计算机视觉或模式识别解决方案时,需要人工识别和标注特定数据,例如圈出图像中包含树木或交通标志的所有像素。使用这些结构化数据,机器可以学会在测试和生产中识别这些关系。
HERE Technologies&澳鹏:通过视频标注精细化地图
HERE的目标是创建精确到几厘米的三维地图,自上世纪80年代中期以来,HERE一直是这一领域的创新者。HERE一直致力于为数百家企业和组织提供详细、精确和可操作的位置数据和见解,而这一驱动因素从未想要更改。 HERE目标宏伟,即为数万公里的行车公路标注地面实况数据,为其信号检测模型提供支持。然而,通过将视频解析为图像来实现这个目标根本是天方夜谭。标注单个视频帧不仅非常耗时,而且乏味昂贵。因此,找到可以微调符号检测算法性能的方法成了重中之重。澳鹏也开始为HERE提供解决方案。 我们的机器学习辅助视频对象跟踪解决方案为实现这一雄心壮志提供了绝佳机会。这是因为我们将人工智能与机器学习相结合,大大提高了视频标注的速度。 在应用该解决方案数月后,HERE相信,该解决方案有利于提高模型训练数据的收集速度。和以往任何时候相比,HERE能创建更多的标志视频,为研究人员和开发人员提供必要的信息,以便他们更好地微调地图。