【深度学习:数据注释工具】构建与购买:从业者的经验教训

在这里插入图片描述

【深度学习:数据注释工具】构建与购买:从业者的经验教训

    • 为什么数据注释团队需要标记工具?
    • 您的软件工程团队是否有时间/资源来构建数据注释解决方案?
    • 为您的项目构建数据注释工具需要多长时间?
    • 将开发外包给第三方会更有意义吗?
    • 购买数据注释工具的优势
    • 总之:我应该构建还是购买数据注释工具?

直到最近几年,任何想要扩展数据注释、机器学习 (ML)、计算机视觉 (CV) 和其他基于人工智能 (AI) 的项目的组织都必须构建自己的数据注释和标记工具。

如果做不到这一点,请使用内部工具和开源注释软件的组合来尝试实现计算机视觉项目。

现在,技术领导者有各种现成的数据标记、注释和主动学习平台可供选择。无论您是早期或成长期初创公司的首席技术官,还是大型组织的人工智能主管、计算机视觉主管或数据运营主管,这个市场都有很多选择。

然而,这个问题仍然是技术和机器学习领导者思考的问题:“我们应该构建还是购买注释工具?

本文旨在通过数据标注团队负责人和从业者的见解来回答这个问题。

在这里插入图片描述

为什么数据注释团队需要标记工具?

即使是现在,尽管我们拥有各种技术优势,但对图像或基于视频的数据集进行注释和标记是任何计算机视觉项目中非常耗时的部分。

数据注释标签的质量和准确性至关重要。低质量的标记数据可能会给机器学习团队带来巨大的问题。

提高标记数据质量和准确性的最佳和最快的方法之一是使用人工智能(AI 辅助)标记工具。人工智能解决方案可以节省时间和金钱。

现在问题来了,“我们可以构建自己的解决方案还是获得开箱即用的解决方案?

让我们看看数据标注领导者和从业者怎么说…

您的软件工程团队是否有时间/资源来构建数据注释解决方案?

构建内部解决方案既费时又昂贵。这可能需要 9 到 18 个月的时间,花费 6 到 7 位数的内部资源,并接管了几名工程师的工作日程。

正如一位体育分析 Encord 客户发现的那样(在他们找到我们之前),“用于数据注释的内部工具和界面存在局限性:构建和完善需要几个月的时间,结果是一个单一用途的工具。

“当他们需要新功能时,内部工程师花了几个月的时间来重新设计和重新配置该工具。另一方面,“Encord 可以在几分钟内构建一个新的本体。花费数月时间为每个特定的注释任务构建内部工具并不是一个可行、可持续或可扩展的策略。

该客户证实,内部资源最好花在其他地方:“在使用 Encord 之前,ML 团队不得不采取安全路线,因为追求失败的新想法的成本很高。有了多用途、经济高效的注释工具,他们现在可以迭代想法,并在开发新产品和功能时更具冒险精神。

在这里插入图片描述

为您的项目构建数据注释工具需要多长时间?

建立一个内部注释工具可能需要几个月的时间。这取决于

  • 您需要注释的图像或视频数据集的体积;
  • 平台所需的功能;
  • 将使用该平台的注释者人数、
  • 作为人工智能或数据运营的领导者,您有时间将此解决方案推向市场,以便开始使用它为图像和视频添加注释(在开始训练数据模型之* 前);
  • 该工具的可扩展性如何?未来还有哪些项目需要它?

考虑到这一点,工程团队就可以开始估算项目构建时间。如果预算充足,还可以估算请第三方软件开发公司完成项目的外包成本。

无论哪种方式,都需要花费数月的时间,需要大量的资金预算,还需要一名项目负责人来监督。项目完成后,您需要熟悉注释软件的内部开发人员来修复错误、维护它,并实施任何升级和所需的新特性/功能。

将开发外包给第三方会更有意义吗?

在某些情况下,将开发外包给低成本地区,如中欧和东欧(CEE),可能比内部建设成本更低。特别是当您比较这些地区的工程师和数据科学家与具有相同技能的美国或西欧专业人员的成本时。

然而,挑战与内部构建相似。该项目仍需管理。准备就绪后,内部团队必须负责、调试、维护工具并实施新特性和功能。

在这里插入图片描述

购买数据注释工具的优势

许多组织没有走内部或外包构建路线,而是在财务和时间上做出购买开箱即用的解决方案,例如 Encord。

土耳其卫生部放射科医生 Hamza Guzel 博士解释了使用 Encord 进行医学图像数据注释的优势。

Guzel 博士还与 Floy 合作,这是一家医疗 AI 公司,开发技术,帮助放射科医生检测病变,帮助他们准备用于训练机器学习模型的医学成像数据。

Floy 在其他现成的商业解决方案中遇到了许多问题,并且由于涉及时间和成本而没有考虑构建一个。因此,解决方案是切换到 Encord 进行 CT 和 MRI 注释和标记。

在这里插入图片描述
“在 Encord 中,组织问题不是问题,借助 Encord 的手绘注释工具,我们可以随心所欲地标记数据。我们可以减少边界上点之间的距离,以毫米级工作,我们需要精确标记病变和其他物体。标记也是一种流畅的体验——在图像上绘图并从一个图像切片移动到另一个图像切片非常容易。

“速度也很快。直到我们切换到 Encord,我才意识到其他平台的速度有多慢,或者标签的速度有多快。

“使用 Encord,我们将 CT 系列的标记时间缩短了 50%,将 MRI 系列的标记时间缩短了 25%。”

总之:我应该构建还是购买数据注释工具?

根据您的数据注释需求,以下是最好的开箱即用解决方案具有的五个功能,例如 Encord。

如果所有这些功能听起来都很熟悉(从那时起我们引入了更多功能,例如 Encord Active 和 Annotator Training Module),您必须问问自己,我们是否有内部时间/资源来构建类似的东西?

或者,避免资本支出和项目管理难题,只需购买现成的数据注释解决方案会更容易吗?

从各个方面来看,购买数据注释工具都是:

  • 远比建造便宜
  • 耗时更少(您可以在几分钟内完成设置,而不是几个月)
  • 机器学习和计算机视觉模型生产准备速度显著加快
  • 更灵活(功能更好,包括 API 和 SDK)

正如 G2 的一篇评论所说:“Encord 帮助我们简化了数据管道,并将我们的训练数据集中在一个地方。我们已经设法使用灵活的 API 构建了相当无缝的集成。

“我们还在报告中使用了一些可定制的仪表板和报告,这是一个加分项。用户界面易于导航,对象检测注释工具(边界框等)的功能非常广泛,因为我们可以定义平台支持的丰富本体。Benjamin 是一家使用 Encord 的中端市场公司的数据科学家。

另一篇评论说:“Encord 的 DICOM 标注解决方案正在解决为医疗 AI 构建训练数据集的低效且耗时的图像标注和工作流程管理问题。通过简化这些流程,它为我们的团队节省了大量时间,并提高了我们的整体生产力。

“此外,质量控制功能确保所有图像都具有最高质量,让放射科医生和我们的ML研究团队高枕无忧,该团队已帮助通过FDA批准。总的来说,这个产品使我们的注释工作更加高效和有条理,使我们的团队受益匪浅。Thomas,临床机器学习工程师。

在这里插入图片描述

‍在 Encord,我们的计算机视觉主动学习平台被广泛的行业(包括医疗保健、制造、公用事业和智能城市)使用,以注释人体姿势估计视频并加速其计算机视觉模型的开发。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/689374.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

异地组网延迟怎么解决问题?

异地组网中的延迟问题可以通过SD-WAN(Software-Defined Wide Area Network)技术进行解决。SD-WAN可以通过优化网络流量和智能路由选择来降低延迟,提高应用程序的性能和用户体验。接下来将介绍使用SD-WAN解决异地组网延迟问题的常用方法。 1.…

SSH密钥认证登陆流程(Vscode连接到远程)

目录 前言连接远程步骤1. 下载工具包wsCli到本地机器2. 本地机器上生成ssh密钥3. 在服务器上安装公钥4. vscode连接到远程 参考资料 前言 SSH(Secure Shell)是一种用于远程登录和安全传输数据的网络协议。它提供了两种主要的远程连接方式: 密…

学习总结18

# 营救 ## 题目背景 “咚咚咚……”“查水表!”原来是查水表来了,现在哪里找这么热心上门的查表员啊!小明感动得热泪盈眶,开起了门…… ## 题目描述 妈妈下班回家,街坊邻居说小明被一群陌生人强行押上了警车&#…

有趣的CSS - 新拟态输入框

我是 Just,这里是「设计师工作日常」,《有趣的css》系列已更新 11 篇了,今天这篇是关于新拟态风格的一个输入框效果,希望你们喜欢。 目录 页面效果核心代码html代码css代码 完整代码html页面css样式 页面效果 此效果使用 css 中 b…

C/C++输出输出相关问题

C/C输出输出相关问题 scanf(“%d”),如果缓存区的开始是数字&#xff0c;scanf会读入&#xff0c;直到遇见非数字字符&#xff0c;否则远不会读入 #include<iostream> using namespace std; int main() {int a[100];char c[100];// scanf的返回值为“所输入的数据与格式字…

html5播放 m3u8

注意&#xff1a;m3u8地址要为网络地址&#xff0c;直接把代码复制为html直接在本地打开&#xff0c;可能不行&#xff0c;需要放在nginx或者apache或者其他的web服务器上运行。 <!DOCTYPE html> <html> <head><meta charsetutf-8 /><title>测试…

通过kafka学习数据一致性

kafka哪些环节存在数据不一致 数据复制 数据从主节点&#xff08;leader&#xff09;复制到从节点&#xff08;follower&#xff09;的过程中&#xff0c;由于网络延迟、节点故障或其他原因 可能导致从节点未能及时获取或处理主节点的数据变更&#xff0c;从而产生数据不一致…

PDF控件Spire.PDF for .NET【安全】演示:如何在 PDF 中添加签名字段

Spire.PDF for .NET 是一款独立 PDF 控件&#xff0c;用于 .NET 程序中创建、编辑和操作 PDF 文档。使用 Spire.PDF 类库&#xff0c;开发人员可以新建一个 PDF 文档或者对现有的 PDF 文档进行处理&#xff0c;且无需安装 Adobe Acrobat。 E-iceblue 功能类库Spire 系列文档处…

js之es新特性

ES6 (ECMAScript 2015) 1. let 和 const let 允许声明一个块作用域的变量。const 允许声明一个块作用域的常量。 let x 10; if (x 10) {let x 20; // 这里的 x 和外面的 x 不是同一个变量console.log(x); // 20 } console.log(x); // 10const y 5; // y 10; // 会抛出错…

PyCharm 新建目录 (directory or folder)

PyCharm 新建目录 [directory or folder] 1. 新建目录2. Enter new directory name -> OKReferences 1. 新建目录 right mouse click on the project -> New -> Directory 2. Enter new directory name -> OK ​​​ References [1] Yongqiang Cheng, https:/…

go redis

go redis 快速入门 安装&#xff1a; go get github.com/redis/go-redis/v9然后创建客户端&#xff1a; package mainimport "github.com/redis/go-redis/v9"func main() {rdb : redis.NewClient(&redis.Options{Addr: "47.109.87.142:6379",Pa…

C++_design_model_observer

/* 观察者模式是一种常用的设计模式&#xff0c;用于在对象之间建立一种一对多的依赖关系&#xff0c;当被观察的对象发生变化时&#xff0c; 所有依赖于它的对象都能够得到通知并自动更新。下面是一个使用C实现观察者模式的例子&#xff1a; */#include <iostream> #inc…

Redis篇----第六篇

系列文章目录 文章目录 系列文章目录前言一、Redis 的持久化机制是什么?各自的优缺点?二、Redis 常见性能问题和解决方案:三、redis 过期键的删除策略?前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章…

已经打包好了的vue dist文件夹,如何用electron打包成exe桌面应用

先在项目根目录下&#xff08;非dist根目录&#xff09;安装electron electron-packager npm install electron再在项目根目录下&#xff08;非dist根目录&#xff09;安装electron-packager npm install electron-packager 然后在dist文件夹下创建main.js文件,内容为 cons…

如何查看springboot依赖的JDK版本

通过maven构建Java项目或者使用源代码进行Java编译时&#xff0c;常常遇到JDK版本和Springboot版本不匹配的问题&#xff0c;导致编译失败&#xff0c;比如出现如下错误&#xff1a; org/springframework/beans/factory/InitializingBean.class [ERROR] 类文件具有错误的…

Unix I/O 模型及Java I/O 模型详解

在Unix Socket的输入操作中&#xff0c;可以将其分为以下几个阶段&#xff1a; 等待数据就绪(内核空间)&#xff1a; 在这个阶段&#xff0c;应用程序通过调用阻塞式的读取函数&#xff08;如recv&#xff09;或非阻塞式的读取函数&#xff08;如recv、recvfrom&#xff09;等待…

可扩展性和性能:数字化成功的支柱

在动态的数字技术世界中,用户的期望和对数字系统的需求不断增加,可扩展性和性能已成为孪生要素。在本文中,我们将全面探讨软件和系统设计的两个基本方面:水平扩展、垂直扩展和性能优化。 简介:关键当务之急 考虑一个场景:您正在管理一个电子商务平台,限时抢购导致网站…

入门级10寸加固行业平板—EM-I10J

亿道信息以其坚固耐用的智能终端设备而闻名&#xff0c;近日发布了一款理想入门级 10 英寸加固平板电脑—I10J。 EM-I10J​​ 这是一款 10 英寸的平板电脑&#xff0c;主要运行 Windows 10操作系统&#xff0c;带有硬化塑料外壳&#xff0c;具有 IP65 防水防尘功能和 MIL-STD 8…

线性dp之石子合并

设有 N堆石子排成一排&#xff0c;其编号为 1,2,3,…,N。 每堆石子有一定的质量&#xff0c;可以用一个整数来描述&#xff0c;现在要将这 N 堆石子合并成为一堆。 每次只能合并相邻的两堆&#xff0c;合并的代价为这两堆石子的质量之和&#xff0c;合并后与这两堆石子相邻的…

注册及搭建小程序开发环境

一、注册小程序账号 打开微信公众平台&#xff0c;通过邮箱注册小程序账号&#xff08;每个邮箱账号&#xff0c;只能注册一个小程序&#xff09;。 注册完成后&#xff0c;登录邮箱&#xff0c;打开激活地址&#xff0c;按照邮件提示&#xff0c;填写信息&#xff0c;激活账号…