【深度学习:数据注释工具】构建与购买:从业者的经验教训

在这里插入图片描述

【深度学习:数据注释工具】构建与购买:从业者的经验教训

    • 为什么数据注释团队需要标记工具?
    • 您的软件工程团队是否有时间/资源来构建数据注释解决方案?
    • 为您的项目构建数据注释工具需要多长时间?
    • 将开发外包给第三方会更有意义吗?
    • 购买数据注释工具的优势
    • 总之:我应该构建还是购买数据注释工具?

直到最近几年,任何想要扩展数据注释、机器学习 (ML)、计算机视觉 (CV) 和其他基于人工智能 (AI) 的项目的组织都必须构建自己的数据注释和标记工具。

如果做不到这一点,请使用内部工具和开源注释软件的组合来尝试实现计算机视觉项目。

现在,技术领导者有各种现成的数据标记、注释和主动学习平台可供选择。无论您是早期或成长期初创公司的首席技术官,还是大型组织的人工智能主管、计算机视觉主管或数据运营主管,这个市场都有很多选择。

然而,这个问题仍然是技术和机器学习领导者思考的问题:“我们应该构建还是购买注释工具?

本文旨在通过数据标注团队负责人和从业者的见解来回答这个问题。

在这里插入图片描述

为什么数据注释团队需要标记工具?

即使是现在,尽管我们拥有各种技术优势,但对图像或基于视频的数据集进行注释和标记是任何计算机视觉项目中非常耗时的部分。

数据注释标签的质量和准确性至关重要。低质量的标记数据可能会给机器学习团队带来巨大的问题。

提高标记数据质量和准确性的最佳和最快的方法之一是使用人工智能(AI 辅助)标记工具。人工智能解决方案可以节省时间和金钱。

现在问题来了,“我们可以构建自己的解决方案还是获得开箱即用的解决方案?

让我们看看数据标注领导者和从业者怎么说…

您的软件工程团队是否有时间/资源来构建数据注释解决方案?

构建内部解决方案既费时又昂贵。这可能需要 9 到 18 个月的时间,花费 6 到 7 位数的内部资源,并接管了几名工程师的工作日程。

正如一位体育分析 Encord 客户发现的那样(在他们找到我们之前),“用于数据注释的内部工具和界面存在局限性:构建和完善需要几个月的时间,结果是一个单一用途的工具。

“当他们需要新功能时,内部工程师花了几个月的时间来重新设计和重新配置该工具。另一方面,“Encord 可以在几分钟内构建一个新的本体。花费数月时间为每个特定的注释任务构建内部工具并不是一个可行、可持续或可扩展的策略。

该客户证实,内部资源最好花在其他地方:“在使用 Encord 之前,ML 团队不得不采取安全路线,因为追求失败的新想法的成本很高。有了多用途、经济高效的注释工具,他们现在可以迭代想法,并在开发新产品和功能时更具冒险精神。

在这里插入图片描述

为您的项目构建数据注释工具需要多长时间?

建立一个内部注释工具可能需要几个月的时间。这取决于

  • 您需要注释的图像或视频数据集的体积;
  • 平台所需的功能;
  • 将使用该平台的注释者人数、
  • 作为人工智能或数据运营的领导者,您有时间将此解决方案推向市场,以便开始使用它为图像和视频添加注释(在开始训练数据模型之* 前);
  • 该工具的可扩展性如何?未来还有哪些项目需要它?

考虑到这一点,工程团队就可以开始估算项目构建时间。如果预算充足,还可以估算请第三方软件开发公司完成项目的外包成本。

无论哪种方式,都需要花费数月的时间,需要大量的资金预算,还需要一名项目负责人来监督。项目完成后,您需要熟悉注释软件的内部开发人员来修复错误、维护它,并实施任何升级和所需的新特性/功能。

将开发外包给第三方会更有意义吗?

在某些情况下,将开发外包给低成本地区,如中欧和东欧(CEE),可能比内部建设成本更低。特别是当您比较这些地区的工程师和数据科学家与具有相同技能的美国或西欧专业人员的成本时。

然而,挑战与内部构建相似。该项目仍需管理。准备就绪后,内部团队必须负责、调试、维护工具并实施新特性和功能。

在这里插入图片描述

购买数据注释工具的优势

许多组织没有走内部或外包构建路线,而是在财务和时间上做出购买开箱即用的解决方案,例如 Encord。

土耳其卫生部放射科医生 Hamza Guzel 博士解释了使用 Encord 进行医学图像数据注释的优势。

Guzel 博士还与 Floy 合作,这是一家医疗 AI 公司,开发技术,帮助放射科医生检测病变,帮助他们准备用于训练机器学习模型的医学成像数据。

Floy 在其他现成的商业解决方案中遇到了许多问题,并且由于涉及时间和成本而没有考虑构建一个。因此,解决方案是切换到 Encord 进行 CT 和 MRI 注释和标记。

在这里插入图片描述
“在 Encord 中,组织问题不是问题,借助 Encord 的手绘注释工具,我们可以随心所欲地标记数据。我们可以减少边界上点之间的距离,以毫米级工作,我们需要精确标记病变和其他物体。标记也是一种流畅的体验——在图像上绘图并从一个图像切片移动到另一个图像切片非常容易。

“速度也很快。直到我们切换到 Encord,我才意识到其他平台的速度有多慢,或者标签的速度有多快。

“使用 Encord,我们将 CT 系列的标记时间缩短了 50%,将 MRI 系列的标记时间缩短了 25%。”

总之:我应该构建还是购买数据注释工具?

根据您的数据注释需求,以下是最好的开箱即用解决方案具有的五个功能,例如 Encord。

如果所有这些功能听起来都很熟悉(从那时起我们引入了更多功能,例如 Encord Active 和 Annotator Training Module),您必须问问自己,我们是否有内部时间/资源来构建类似的东西?

或者,避免资本支出和项目管理难题,只需购买现成的数据注释解决方案会更容易吗?

从各个方面来看,购买数据注释工具都是:

  • 远比建造便宜
  • 耗时更少(您可以在几分钟内完成设置,而不是几个月)
  • 机器学习和计算机视觉模型生产准备速度显著加快
  • 更灵活(功能更好,包括 API 和 SDK)

正如 G2 的一篇评论所说:“Encord 帮助我们简化了数据管道,并将我们的训练数据集中在一个地方。我们已经设法使用灵活的 API 构建了相当无缝的集成。

“我们还在报告中使用了一些可定制的仪表板和报告,这是一个加分项。用户界面易于导航,对象检测注释工具(边界框等)的功能非常广泛,因为我们可以定义平台支持的丰富本体。Benjamin 是一家使用 Encord 的中端市场公司的数据科学家。

另一篇评论说:“Encord 的 DICOM 标注解决方案正在解决为医疗 AI 构建训练数据集的低效且耗时的图像标注和工作流程管理问题。通过简化这些流程,它为我们的团队节省了大量时间,并提高了我们的整体生产力。

“此外,质量控制功能确保所有图像都具有最高质量,让放射科医生和我们的ML研究团队高枕无忧,该团队已帮助通过FDA批准。总的来说,这个产品使我们的注释工作更加高效和有条理,使我们的团队受益匪浅。Thomas,临床机器学习工程师。

在这里插入图片描述

‍在 Encord,我们的计算机视觉主动学习平台被广泛的行业(包括医疗保健、制造、公用事业和智能城市)使用,以注释人体姿势估计视频并加速其计算机视觉模型的开发。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/689374.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SSH密钥认证登陆流程(Vscode连接到远程)

目录 前言连接远程步骤1. 下载工具包wsCli到本地机器2. 本地机器上生成ssh密钥3. 在服务器上安装公钥4. vscode连接到远程 参考资料 前言 SSH(Secure Shell)是一种用于远程登录和安全传输数据的网络协议。它提供了两种主要的远程连接方式: 密…

有趣的CSS - 新拟态输入框

我是 Just,这里是「设计师工作日常」,《有趣的css》系列已更新 11 篇了,今天这篇是关于新拟态风格的一个输入框效果,希望你们喜欢。 目录 页面效果核心代码html代码css代码 完整代码html页面css样式 页面效果 此效果使用 css 中 b…

PDF控件Spire.PDF for .NET【安全】演示:如何在 PDF 中添加签名字段

Spire.PDF for .NET 是一款独立 PDF 控件,用于 .NET 程序中创建、编辑和操作 PDF 文档。使用 Spire.PDF 类库,开发人员可以新建一个 PDF 文档或者对现有的 PDF 文档进行处理,且无需安装 Adobe Acrobat。 E-iceblue 功能类库Spire 系列文档处…

PyCharm 新建目录 (directory or folder)

PyCharm 新建目录 [directory or folder] 1. 新建目录2. Enter new directory name -> OKReferences 1. 新建目录 right mouse click on the project -> New -> Directory 2. Enter new directory name -> OK ​​​ References [1] Yongqiang Cheng, https:/…

go redis

go redis 快速入门 安装: go get github.com/redis/go-redis/v9然后创建客户端: package mainimport "github.com/redis/go-redis/v9"func main() {rdb : redis.NewClient(&redis.Options{Addr: "47.109.87.142:6379",Pa…

C++_design_model_observer

/* 观察者模式是一种常用的设计模式&#xff0c;用于在对象之间建立一种一对多的依赖关系&#xff0c;当被观察的对象发生变化时&#xff0c; 所有依赖于它的对象都能够得到通知并自动更新。下面是一个使用C实现观察者模式的例子&#xff1a; */#include <iostream> #inc…

Redis篇----第六篇

系列文章目录 文章目录 系列文章目录前言一、Redis 的持久化机制是什么?各自的优缺点?二、Redis 常见性能问题和解决方案:三、redis 过期键的删除策略?前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章…

如何查看springboot依赖的JDK版本

通过maven构建Java项目或者使用源代码进行Java编译时&#xff0c;常常遇到JDK版本和Springboot版本不匹配的问题&#xff0c;导致编译失败&#xff0c;比如出现如下错误&#xff1a; org/springframework/beans/factory/InitializingBean.class [ERROR] 类文件具有错误的…

Unix I/O 模型及Java I/O 模型详解

在Unix Socket的输入操作中&#xff0c;可以将其分为以下几个阶段&#xff1a; 等待数据就绪(内核空间)&#xff1a; 在这个阶段&#xff0c;应用程序通过调用阻塞式的读取函数&#xff08;如recv&#xff09;或非阻塞式的读取函数&#xff08;如recv、recvfrom&#xff09;等待…

入门级10寸加固行业平板—EM-I10J

亿道信息以其坚固耐用的智能终端设备而闻名&#xff0c;近日发布了一款理想入门级 10 英寸加固平板电脑—I10J。 EM-I10J​​ 这是一款 10 英寸的平板电脑&#xff0c;主要运行 Windows 10操作系统&#xff0c;带有硬化塑料外壳&#xff0c;具有 IP65 防水防尘功能和 MIL-STD 8…

线性dp之石子合并

设有 N堆石子排成一排&#xff0c;其编号为 1,2,3,…,N。 每堆石子有一定的质量&#xff0c;可以用一个整数来描述&#xff0c;现在要将这 N 堆石子合并成为一堆。 每次只能合并相邻的两堆&#xff0c;合并的代价为这两堆石子的质量之和&#xff0c;合并后与这两堆石子相邻的…

注册及搭建小程序开发环境

一、注册小程序账号 打开微信公众平台&#xff0c;通过邮箱注册小程序账号&#xff08;每个邮箱账号&#xff0c;只能注册一个小程序&#xff09;。 注册完成后&#xff0c;登录邮箱&#xff0c;打开激活地址&#xff0c;按照邮件提示&#xff0c;填写信息&#xff0c;激活账号…

Eclipse - 查看工程或者文件的磁盘路径

Eclipse - 查看工程或者文件的磁盘路径 1. Help -> Eclipse Marketplace -> Find: Explorer -> Eclipse Explorer 4.1.0 -> Install2. right-click -> Open in ExplorerReferences 1. Help -> Eclipse Marketplace -> Find: Explorer -> Eclipse Explo…

门店数字化之旅:如何跨越那些难以逾越的鸿沟?

在数字化浪潮席卷全球的背景下&#xff0c;连锁门店运营正面临着一场深刻的变革。这场变革不仅关乎技术的升级&#xff0c;更涉及到商业模式、管理理念以及消费者体验的根本性转变。然而&#xff0c;在这场转型之路上&#xff0c;许多门店却常常遭遇各种痛点&#xff0c;让数字…

2023年总结与2024展望

今天是春节后上班第一天&#xff0c;你懂的&#xff0c;今天基本上是摸鱼状态&#xff0c;早上把我们负责的项目的ppt介绍完善了一下&#xff0c;然后写了一篇技术文章&#xff0c;《分布式系统一致性与共识算法》。接着就看了我近几年写的的年度总结&#xff0c;我一般不会在元…

一个服务器实现本机服务互联网化

欢迎来到我的博客&#xff0c;代码的世界里&#xff0c;每一行都是一个故事 一个服务器实现本机服务互联网化 前言痛点关于中微子代理实战演练搭建服务端搭建客户端服务端配置代理实现 前言 在数字世界的网络战场上&#xff0c;中微子代理就像是一支潜伏在黑暗中的数字特工队&…

自动化上位机开发C#100例:雷赛运动控制卡EtherCAT总线卡C#封装类

自动化上位机开发C#100例:雷赛运动控制卡EtherCAT总线卡C#封装类 文章目录 LTDMC.dll下载LTDMC.cs LTDMC.dll C#调用封装下载ICard.cs 运动控制卡接口Card.cs 运动控制卡抽象类CardLTDMC.cs 雷赛运动控制卡EtherCAT总线卡实现类CardList.cs 总线卡列表封装 LTDMC.dll下载 最新…

【笔记------STM32】MX_RTC_Init()初始化RTC时RTC_ISR_INITF位超时失败的解决方法

RTC和flash有点像&#xff0c;有些功能需要解锁才能配置&#xff0c;虽然cubeMX生成的RTC部分的解锁配置正确&#xff0c;但却没有配置好前提条件&#xff1a;关闭PWR模块的备份域写保护使能&#xff0c;有点奇怪&#xff0c;手动关掉就好了 现象&#xff1a;进入RTC_EnterInit…

java数据结构与算法刷题-----LeetCode239. 滑动窗口最大值

java数据结构与算法刷题目录&#xff08;剑指Offer、LeetCode、ACM&#xff09;-----主目录-----持续更新(进不去说明我没写完)&#xff1a;https://blog.csdn.net/grd_java/article/details/123063846 1. 法一&#xff1a;指针法 解题思路 我们以每一个窗口来看&#xff0c;找…

OpenAI划时代大模型——文本生成视频模型Sora作品欣赏(二)

Sora介绍 Sora是一个能以文本描述生成视频的人工智能模型&#xff0c;由美国人工智能研究机构OpenAI开发。 Sora这一名称源于日文“空”&#xff08;そら sora&#xff09;&#xff0c;即天空之意&#xff0c;以示其无限的创造潜力。其背后的技术是在OpenAI的文本到图像生成模…