互联网高科技公司领导AI工业化,MatrixGo加速人工智能落地

作者:吴宁川

AI(人工智能)工业化与AI工程化正在引领人工智能的大趋势。AI工程化主要从企业CIO角度,着眼于在企业生产环境中规模化落地AI应用的工程化举措;而AI工业化则从AI供应商的角度,着眼于以规模化方式为企业用户提供AI技术、方案和服务,从而在企业生产环境中能够规模化落地AI应用。AI工业化和AI工程化相当于一个硬币的两面,一面是AI技术供给和供应链的规模化,一面是AI技术使用和落地的规模化。

AI工程化已经连续两年入选Gartner的2021年及2022年重要战略科技趋势报告。在2021年,Gartner指出只有53%的项目能够从AI原型转化到生产环境,AI项目的扩展难度很大。而在2022年报告中,Gartner预测到2025年,10%建立了AI工程化最佳实践的企业,将比余下90%的企业实现至少高三倍的收益。AI工程化不足之处,AI工业化补足。作为AI模型生命周期高质量数据服务供应商,澳鹏中国高级产研总监张童皓指出:数据优化为AI推理带来的效果提升,要远比代码优化的效果强很多,企业到了建立AI数据供应链的时机。

AI工业化与AI工程化都包括了DataOps、ModelOps和DevOps三大实践,统称为AIOps。其中ModelOps和DevOps已经有众多成熟的自动化工具与平台以及相应的从业人员,而DataOps正处于快速上升期,AI数据标注是DataOps中的一个关键领域。2022年1月,澳鹏中国推出了MatrixGo高精度AI数据标注平台企业版,专门面向企业本地部署环境,帮助CIO们以高度自动化、标准化和规模化方式建立AI标注数据供应链。

MatrixGo的推出,标志着AI工业化迎来了一个全新里程碑,也将极大推动AI工程化进展。

AI数据工业化大趋势

以深度神经网络模型为代表的深度学习算法正释放人工智能产业的红利。自深度神经网络算法在2015年取得视觉识别的突破、在2017年取得语音识别的突破,以及2018年底BERT大规模预训练神经网络模型问世以来,深度学习算法就在互联网和高科技行业率先推动了一波大规模应用,包括自动驾驶、新闻汇聚、自然语言处理、虚拟助理、娱乐等应用领域,而其成果就是推高了互联网和高科技公司的市值。

除了互联网和高科技公司外,AI创业公司也是深度学习算法在各行各业落地的主力军。在全球市场,根据CB Insights统计,2010年到2021年,全球AI 100强共获得了117亿美元的股权融资,自动驾驶、医药研发、AI处理器等是最主要投融资领域,如今AI 100强在零售、快速消费品、游戏等18个行业领域推动着AI的落地。在中国,除了百度、阿里、腾讯、京东、滴滴、华为、科大讯飞等互联网和高科技巨头外,高校与科研机构、AI四小龙以及一批智能驾驶公司等在推动深度学习算法发展与落地。

近年来,人工智能领域在第三次浪潮爆发后经历了快速的发展,许多特定领域的专用人工智能算法已经大幅度超越了人类的水平,并在工业生产和社会生活中得到了广泛应用。目前,深度学习算法的本质是海量数据驱动的统计学习,是随着计算机算力和大数据可及性的快速提升而出现的产物。特别是近两年出现超大规模预处理自然语言模式,例如北京智源人工智能研究院的人工智能大模型“悟道2.0”参数规模就达到1.75万亿(注1)。

既然深度学习算法是算力与大数据的产物,那么深度学习算法模型的工业化优化,也就需要AI数据供应链的工业化。所谓“工业化”,即以自动化、标准化和规模化可扩展方式为标志。澳鹏Appen是一家有着超过25年历史的人工智能训练数据服务公司,澳鹏Appen近期发布的《2021年人工智能与机器学习现状调查报告》显示,随着深度学习算法越来越成熟,模型算法本身的迭代优化已经不能带来明显的效果,而AI数据的高质量优化是模型效果提升的下一个关键。AI数据即需要经过人工标注后的数据,才能用于AI模型的训练和推理及优化。此前,AI标注数据的供应基本以作坊式为主,难以保证AI标注数据的高质量供给,接下来AI标注数据的供给将迎来工业化爆发。

构建AI数据供应链能力

随着互联网高科技企业等越来越大规模地将AI嵌入到自己的商业运营、产品与服务等方方面面,大规模的AI项目对标注数据的快速和持续供给需求已经越来越迫切。以互联网高科技企业为代表的AI用户已经率先与外部的数据服务供应商合作,以解决持续的AI标注数据外包、数据准备、数据质量评估以及数据供给等挑战。但在AI标注数据的规模化供给方面,自动化、标准化和规模化可扩展仍然是需要解决的关键问题。

澳鹏中国高级产研总监张童皓表示,2022年将是AI标注数据供给产业的一个分水岭——之前的AI标注数据行业最佳实践逐渐沉淀为可复用的软件工具,以更为自动化、标准化和规模化可扩展的方式,为整个AI模型生命周期提供高精度和高质量的标注数据,满足数据采集、标注、数据版本更新、AI模型再训练等端到端过程,以工业化方式构建起完整AI标注数据供应链。在2019年进入中国市场之前,澳鹏Appen已经拥有业内先进的人工智能辅助数据标注平台、一体化AI数据及资源管理平台、全球100多万名众包资源以及丰富的实践。

将AI标注数据实践沉淀为方法论,这不是一件容易的事情。其中很多要解决的问题,包括:如何组织大规模的标注数据人员团队、如何保证数据质量、如何更有效地反馈模型训练结果、如何继续优化训练数据集等,同时还要应对用户业务中出现的各种复杂场景,甚至是业务出海场景中的地域差异等。这不仅要将AI标注数据的具体实践落地到一个强大而高效的工具集中,还要为项目管理、团队协作等设计灵活、高效、可扩展的工作流程,此外还要能够对外开放一定的API,将数据标注结果与各种AIOps流程相结合。

张童皓强调,数据标注平台非常复杂,在某种程度上是Office +数据仓库+AIOps的结合体,很多互联网高科技企业CIO们都意识到这并不属于自己核心研发部门所需要投入的研发方向和领域。当前,为了更好地训练和再训练AI模型以及AI推理,企业CIO们都构建了自己的数据资产管理平台,数据资产管理平台对接着两端——一端是数据供应链,一端是模型训练环境。对于专业的AI标注数据服务公司来说,将已有的方法论进行沉淀,再将行之有效的方式固化下来,形成能够复用且易用的产品级能力,就能大规模赋能AI模型迭代。

全场景覆盖AI模型生命周期

在意识到数据标注工具平台对于AIOps的重要性后,澳鹏Appen在2019收购了创立于硅谷的数据标注平台Figure 8,并将之与澳鹏全球上百万的众包工作者和团队相结合,澳鹏中国也于2022年1月推出了自研的面向中国大陆、港澳台及亚太区域的MatrixGo企业版。目前,这些地区的客户可以通过MatrixGo的公有云SaaS版或纯私有化部署企业版,构建自己的AI标注数据供应链。

MatrixGo作为AI标注数据的采标一体化平台,为企业AI模型优化实现端到端的数据深度整合,同时提供丰富的标注工具以及一套支持大规模生产和复杂协同的智能标注工作流,在保证企业数据安全的前提下,建立企业AI数据供应链能力。MatrixGo被定位于AI行业赋能者,它可覆盖丰富的场景——支持全领域数据类型及应用场景,承诺极致的数据质量——提供海量高质量、无偏见、多元化的AI训练数据生产服务,确保数据标注流程合规及隐私保护——通过了ISO27001等标准及各种安全测试、众包员工年度完成合规培训。MatrixGo沉淀了丰富的AIOps方法论,提供丰富的API能力,可以与上下游系统进行良好集成。

MatrixGo让数据标注团队获得极高的生产力,大幅降低标注数据人员的门槛。MatrixGo面向AI数据标注的项目经理、标注员/质检员、供应商管理员、供应商项目经理供应商团队标注员/质检员、系统管理员等多种角色提供了丰富的平台功能:项目管理、资源管理、标注工具箱(AI辅助引擎、工作流引擎)、标注引擎等四大模块,其中项目管理可完成项目配置、工作流配置、资源分配、质量控制、可视化分析等,资源管理则是企业自有团队管理、BPO管理,数据收集和标注工具箱则提供了手机端数据收集应用、一系列标注工具以及人工智能辅助标注功能,而核心引擎则提供了标注引擎、质检引擎、任务分发和数据服务等。

数据收集和标注工具是MatrixGo的核心亮点之一。数据收集包括:手机端应用,可完成视频图像、音频文本甚至是复杂的手写体数据收集等;数据收集后的分发、质检反馈、工作量结算等,可实现系统化的数据收集和分发。特色标注工具则有语音数据处理的语音切分转写,高精度完成长语音的切分,可引导标注员方便地浏览或在不同音频段之间跳转;图像通用关键点标注工具能让标注员一边接受培训一边上手做项目,提高项目冷启动时的效率;2D图像标注工具支持网格视图模式且将质量保证固化到工具中,3D点云工具与2D标注框逻辑绑定,连续帧模式下可做到线性填充,部分帧可分钟级完成标注,质检达每帧秒级等等。

澳鹏2D图像复合标注示例

澳鹏2D图像复合标注示例

澳鹏3D点云拉框及2D映射(融合标注)示例

澳鹏3D点云拉框及2D映射(融合标注)示例

此外,MatrixGo还提供了模板引擎组件:支持脚本编程,可构建适配于项目定制化需求的工具,分钟级完成自定义工具,自定义工具与MatrixGo平台的数据统计等各流程节点直接集成。MatrixGo最重要的亮点是工作流调度:面向海量任务,支持高并发呑吐架构,平台上单点能够支持每秒3万任务的吞吐量,还可无限自动横向扩容;工作流并行消费数据中心的数据,进行各自生产再向统一节点进行交付;在项目生产过程中,项目经理可以随时修改任务,平台自动确保数据统计等正确。

张童皓强调,推出MatrixGo 私有化版本主要是为了满足对数据安全有更高诉求、在合规性方面有更高要求的中大型公司,科研和小型创业公司则更适合公有云SaaS方式。特别是MatrixGo的SaaS版本可对接澳鹏全球的数据标注众包人力资源并可通过扩展支持私有化文件服务的方式增强安全性,可满足中国企业出海的需求。目前,澳鹏中国的主要客户包括互联网、高科技、自动驾驶、AI创业公司、零售、医疗、高校等,2022年还将拓展更多的传统企业数字化转型市场。

总结来说:2022年是整个AI产业的一个分水岭,更高自动化程度的AI数据标注平台,正在定义整个模型生命周期内的AI模型质量与效果。AI数据标注的工业化运作,让DataOps成为了整个AIOps中最重要的环节。当前,互联网和高科技企业正在引领这一大趋势,未来将有更多的科技企业和传统企业数字化转型也将采用专业的AI数据标注平台。以澳鹏中国MatrixGo为代表的AI数据标注平台,将成为AI发展的重要赋能平台。

(注1:北京智源人工智能研究院:《2021人工智能的认知神经基础》白皮书。)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/694723.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Rust ?运算符 Rust读写txt文件

一、Rust ?运算符 ?运算符:传播错误的一种快捷方式。 如果Result是Ok:Ok中的值就是表达式的结果,然后继续执行程序。 如果Result是Err:Err就是整个函数的返回值,就像使用了return &#xff…

电脑wifi丢失修复

当你打开电脑突然发现wifi功能不见了,可以先查看一下网卡的状态 在控制面板中找到设备管理器,打开就能找到网络适配器, 我这里是修复过的,wifi丢失后这里可能会显示WALN是丢失的,其他项显示黄色感叹号。 如何修复呢…

Go语言中的TLS加密:深入crypto/tls库的实战指南

Go语言中的TLS加密:深入crypto/tls库的实战指南 引言crypto/tls库的核心组件TLS配置:tls.Config证书加载与管理TLS握手过程及其实现 构建安全的服务端创建TLS加密的HTTP服务器配置TLS属性常见的安全设置和最佳实践 开发TLS客户端应用编写使用TLS的客户端…

[游戏开发][虚幻5]新建项目注意事项

鼠标右键点击Client.uproject文件,可以看到三个比较关键的选项, 启动游戏,生成sln解决方案,切换引擎版本 断点调试 C代码重要步骤 如果你想断点调试C代码,则必须使用使用代码编译启动引擎,你需要做几个操作…

从零开始学习Netty - 学习笔记 - NIO基础 - 网络编程: Selector

4.网络编程 4.1.非阻塞 VS 阻塞 在网络编程中,**阻塞(Blocking)和非阻塞(Non-blocking)**是两种不同的编程模型,描述了程序在进行网络通信时的行为方式。 阻塞(Blocking)&#xff1…

js设计模式:计算属性模式

作用: 将对象中的某些值与其他值进行关联,根据其他值来计算该值的结果 vue中的计算属性就是很经典的例子 示例: let nowDate 2023const wjtInfo {brithDate:1995,get age(){return nowDate-this.brithDate}}console.log(wjtInfo.age,wjt年龄)nowDate 1console.log(wjtInf…

【算法与数据结构】1020、130、LeetCode飞地的数量 被围绕的区域

文章目录 一、1020、飞地的数量二、130、被围绕的区域三、完整代码 所有的LeetCode题解索引,可以看这篇文章——【算法和数据结构】LeetCode题解。 一、1020、飞地的数量 思路分析:博主认为题目很抽象,非常难理解。想了好久,要理解…

【蝶变跃升】壹起来|就业辅导系列活动——职业生涯规划和模拟面试

为使困难家庭更深层次了解自己就业现状,明确就业方向,同时提升在面试时的各类技巧。2024年2月17日,由平湖市民政局主办、平湖吾悦广场和上海聘也科技有限公司协办、平湖市壹起来公益发展中心承办的“蝶变跃升”就业辅导系列——职业生涯规划和…

2024新版Java高频面试题+Java八股文面试真题

Java面试题_2024新版Java高频面试题Java八股文面试真题 Java高频面试专题视频课程,瓤括了Java生态下的主流技术面试题,课程特色: 1、全面,jvm、并发编程、mysql、rabbitmq、spring、mybatis、redis、分布式、微服务、数据结构等等…

Flutter学习4 - Dart数据类型

1、基本数据类型 num、int、double (1)常用数据类型 num类型,是数字类型的父类型,有两个子类 int 和 double 通过在函数名前加下划线,可以将函数变成私有函数,私有函数只能在当前文件中调用 //常用数据…

docker之安装mongo创建运行环境

目录 一、docker pull 最新资源 二、启动mongo镜像 启动命令查看日志拉取低版本镜像成功启动 三、进入mongo容器 进入容器进入mongo环境查询当前所在库切换库至admin随意切换库 并 创建用户登录用户新增文档数据等 五、总结 版本兼容可备份操作 一、docker pull 最新资源…

顺序表详解(如何实现顺序表)

文章目录 前言 在进入顺序表前,我们先要明白,数据结构的基本概念。 一、数据结构的基本概念 1.1什么是数据结构 数据结构是由“数据”和“结构”两词组合而来。所谓数据就是?常见的数值1、2、3、4.....、姓名、性别、年龄,等。…

开发一款招聘小程序需要具备哪些功能?

随着时代的发展,找工作的方式也在不断变得简单,去劳务市场、人才市场的方式早就已经过时了,现在大多数年轻人都是直接通过手机来找工作。图片 找工作类的平台不但能扩大企业的招聘渠道,还能节省招聘的成本,方便求职者进…

C# 使用onnxruntime部署夜间雾霾图像的可见度增强

目录 介绍 模型信息 效果 项目 代码 下载 C# Onnx 使用onnxruntime部署夜间雾霾图像的可见度增强 介绍 github地址:GitHub - jinyeying/nighttime_dehaze: [ACMMM2023] "Enhancing Visibility in Nighttime Haze Images Using Guided APSF and Gradien…

如何修改unity的背景颜色

要在Unity中将背景颜色设为黑色,可以按照以下步骤进行: 1、在Unity编辑器中,选择你想要修改背景颜色的摄像机对象(一般是Main Camera)。 2、在Inspector面板中,找到"Clear Flags"(清…

ChatGPT 4.0 升级指南

1.ChatGPT 是什么? ChatGPT 是由 OpenAI 开发的一种基于人工智能的聊天机器人,它基于强大的语言处理模型 GPT(Generative Pre-trained Transformer)构建。它能够理解人类语言,可以为我们解决实际的问题。 1.模型规模…

计网 - 域名解析的工作流程

文章目录 Pre引言1. DNS是什么2. 域名结构3. 域名解析的工作流程4. 常见的DNS记录类型5. DNS安全6. 未来的发展趋势 Pre 计网 - DNS 域名解析系统 引言 在我们日常使用互联网时,经常会输入各种域名来访问网站、发送电子邮件或连接其他网络服务。然而,我…

Java中的关键字

✨✨ 所属专栏: Java基石:深入探索Java核心基础✨✨ 🎈🎈作者主页: 喔的嘛呀🎈🎈 Java中的关键字是一些具有特殊含义的单词,它们在语法中有特定的用途,不能用作标识符&am…

[力扣 Hot100]Day32 随机链表的复制

题目描述 给你一个长度为 n 的链表,每个节点包含一个额外增加的随机指针 random ,该指针可以指向链表中的任何节点或空节点。 构造这个链表的 深拷贝。 深拷贝应该正好由 n 个 全新节点组成,其中每个新节点的值都设为其对应的原节点的值。新…

论文导读 | 因式分解数据库

背景和问题定义 在传统的关系型数据库中,二维表格形式容易造成信息的冗余。如果我们将数据库中的每条元组看成单项式,一个关系型数据库就可以表示成这些单项式的和。通过对多项式的因式分解就能够得到更加紧凑的表示形式。 例如:下图中的表…