互联网高科技公司领导AI工业化,MatrixGo加速人工智能落地

作者:吴宁川

AI(人工智能)工业化与AI工程化正在引领人工智能的大趋势。AI工程化主要从企业CIO角度,着眼于在企业生产环境中规模化落地AI应用的工程化举措;而AI工业化则从AI供应商的角度,着眼于以规模化方式为企业用户提供AI技术、方案和服务,从而在企业生产环境中能够规模化落地AI应用。AI工业化和AI工程化相当于一个硬币的两面,一面是AI技术供给和供应链的规模化,一面是AI技术使用和落地的规模化。

AI工程化已经连续两年入选Gartner的2021年及2022年重要战略科技趋势报告。在2021年,Gartner指出只有53%的项目能够从AI原型转化到生产环境,AI项目的扩展难度很大。而在2022年报告中,Gartner预测到2025年,10%建立了AI工程化最佳实践的企业,将比余下90%的企业实现至少高三倍的收益。AI工程化不足之处,AI工业化补足。作为AI模型生命周期高质量数据服务供应商,澳鹏中国高级产研总监张童皓指出:数据优化为AI推理带来的效果提升,要远比代码优化的效果强很多,企业到了建立AI数据供应链的时机。

AI工业化与AI工程化都包括了DataOps、ModelOps和DevOps三大实践,统称为AIOps。其中ModelOps和DevOps已经有众多成熟的自动化工具与平台以及相应的从业人员,而DataOps正处于快速上升期,AI数据标注是DataOps中的一个关键领域。2022年1月,澳鹏中国推出了MatrixGo高精度AI数据标注平台企业版,专门面向企业本地部署环境,帮助CIO们以高度自动化、标准化和规模化方式建立AI标注数据供应链。

MatrixGo的推出,标志着AI工业化迎来了一个全新里程碑,也将极大推动AI工程化进展。

AI数据工业化大趋势

以深度神经网络模型为代表的深度学习算法正释放人工智能产业的红利。自深度神经网络算法在2015年取得视觉识别的突破、在2017年取得语音识别的突破,以及2018年底BERT大规模预训练神经网络模型问世以来,深度学习算法就在互联网和高科技行业率先推动了一波大规模应用,包括自动驾驶、新闻汇聚、自然语言处理、虚拟助理、娱乐等应用领域,而其成果就是推高了互联网和高科技公司的市值。

除了互联网和高科技公司外,AI创业公司也是深度学习算法在各行各业落地的主力军。在全球市场,根据CB Insights统计,2010年到2021年,全球AI 100强共获得了117亿美元的股权融资,自动驾驶、医药研发、AI处理器等是最主要投融资领域,如今AI 100强在零售、快速消费品、游戏等18个行业领域推动着AI的落地。在中国,除了百度、阿里、腾讯、京东、滴滴、华为、科大讯飞等互联网和高科技巨头外,高校与科研机构、AI四小龙以及一批智能驾驶公司等在推动深度学习算法发展与落地。

近年来,人工智能领域在第三次浪潮爆发后经历了快速的发展,许多特定领域的专用人工智能算法已经大幅度超越了人类的水平,并在工业生产和社会生活中得到了广泛应用。目前,深度学习算法的本质是海量数据驱动的统计学习,是随着计算机算力和大数据可及性的快速提升而出现的产物。特别是近两年出现超大规模预处理自然语言模式,例如北京智源人工智能研究院的人工智能大模型“悟道2.0”参数规模就达到1.75万亿(注1)。

既然深度学习算法是算力与大数据的产物,那么深度学习算法模型的工业化优化,也就需要AI数据供应链的工业化。所谓“工业化”,即以自动化、标准化和规模化可扩展方式为标志。澳鹏Appen是一家有着超过25年历史的人工智能训练数据服务公司,澳鹏Appen近期发布的《2021年人工智能与机器学习现状调查报告》显示,随着深度学习算法越来越成熟,模型算法本身的迭代优化已经不能带来明显的效果,而AI数据的高质量优化是模型效果提升的下一个关键。AI数据即需要经过人工标注后的数据,才能用于AI模型的训练和推理及优化。此前,AI标注数据的供应基本以作坊式为主,难以保证AI标注数据的高质量供给,接下来AI标注数据的供给将迎来工业化爆发。

构建AI数据供应链能力

随着互联网高科技企业等越来越大规模地将AI嵌入到自己的商业运营、产品与服务等方方面面,大规模的AI项目对标注数据的快速和持续供给需求已经越来越迫切。以互联网高科技企业为代表的AI用户已经率先与外部的数据服务供应商合作,以解决持续的AI标注数据外包、数据准备、数据质量评估以及数据供给等挑战。但在AI标注数据的规模化供给方面,自动化、标准化和规模化可扩展仍然是需要解决的关键问题。

澳鹏中国高级产研总监张童皓表示,2022年将是AI标注数据供给产业的一个分水岭——之前的AI标注数据行业最佳实践逐渐沉淀为可复用的软件工具,以更为自动化、标准化和规模化可扩展的方式,为整个AI模型生命周期提供高精度和高质量的标注数据,满足数据采集、标注、数据版本更新、AI模型再训练等端到端过程,以工业化方式构建起完整AI标注数据供应链。在2019年进入中国市场之前,澳鹏Appen已经拥有业内先进的人工智能辅助数据标注平台、一体化AI数据及资源管理平台、全球100多万名众包资源以及丰富的实践。

将AI标注数据实践沉淀为方法论,这不是一件容易的事情。其中很多要解决的问题,包括:如何组织大规模的标注数据人员团队、如何保证数据质量、如何更有效地反馈模型训练结果、如何继续优化训练数据集等,同时还要应对用户业务中出现的各种复杂场景,甚至是业务出海场景中的地域差异等。这不仅要将AI标注数据的具体实践落地到一个强大而高效的工具集中,还要为项目管理、团队协作等设计灵活、高效、可扩展的工作流程,此外还要能够对外开放一定的API,将数据标注结果与各种AIOps流程相结合。

张童皓强调,数据标注平台非常复杂,在某种程度上是Office +数据仓库+AIOps的结合体,很多互联网高科技企业CIO们都意识到这并不属于自己核心研发部门所需要投入的研发方向和领域。当前,为了更好地训练和再训练AI模型以及AI推理,企业CIO们都构建了自己的数据资产管理平台,数据资产管理平台对接着两端——一端是数据供应链,一端是模型训练环境。对于专业的AI标注数据服务公司来说,将已有的方法论进行沉淀,再将行之有效的方式固化下来,形成能够复用且易用的产品级能力,就能大规模赋能AI模型迭代。

全场景覆盖AI模型生命周期

在意识到数据标注工具平台对于AIOps的重要性后,澳鹏Appen在2019收购了创立于硅谷的数据标注平台Figure 8,并将之与澳鹏全球上百万的众包工作者和团队相结合,澳鹏中国也于2022年1月推出了自研的面向中国大陆、港澳台及亚太区域的MatrixGo企业版。目前,这些地区的客户可以通过MatrixGo的公有云SaaS版或纯私有化部署企业版,构建自己的AI标注数据供应链。

MatrixGo作为AI标注数据的采标一体化平台,为企业AI模型优化实现端到端的数据深度整合,同时提供丰富的标注工具以及一套支持大规模生产和复杂协同的智能标注工作流,在保证企业数据安全的前提下,建立企业AI数据供应链能力。MatrixGo被定位于AI行业赋能者,它可覆盖丰富的场景——支持全领域数据类型及应用场景,承诺极致的数据质量——提供海量高质量、无偏见、多元化的AI训练数据生产服务,确保数据标注流程合规及隐私保护——通过了ISO27001等标准及各种安全测试、众包员工年度完成合规培训。MatrixGo沉淀了丰富的AIOps方法论,提供丰富的API能力,可以与上下游系统进行良好集成。

MatrixGo让数据标注团队获得极高的生产力,大幅降低标注数据人员的门槛。MatrixGo面向AI数据标注的项目经理、标注员/质检员、供应商管理员、供应商项目经理供应商团队标注员/质检员、系统管理员等多种角色提供了丰富的平台功能:项目管理、资源管理、标注工具箱(AI辅助引擎、工作流引擎)、标注引擎等四大模块,其中项目管理可完成项目配置、工作流配置、资源分配、质量控制、可视化分析等,资源管理则是企业自有团队管理、BPO管理,数据收集和标注工具箱则提供了手机端数据收集应用、一系列标注工具以及人工智能辅助标注功能,而核心引擎则提供了标注引擎、质检引擎、任务分发和数据服务等。

数据收集和标注工具是MatrixGo的核心亮点之一。数据收集包括:手机端应用,可完成视频图像、音频文本甚至是复杂的手写体数据收集等;数据收集后的分发、质检反馈、工作量结算等,可实现系统化的数据收集和分发。特色标注工具则有语音数据处理的语音切分转写,高精度完成长语音的切分,可引导标注员方便地浏览或在不同音频段之间跳转;图像通用关键点标注工具能让标注员一边接受培训一边上手做项目,提高项目冷启动时的效率;2D图像标注工具支持网格视图模式且将质量保证固化到工具中,3D点云工具与2D标注框逻辑绑定,连续帧模式下可做到线性填充,部分帧可分钟级完成标注,质检达每帧秒级等等。

澳鹏2D图像复合标注示例

澳鹏2D图像复合标注示例

澳鹏3D点云拉框及2D映射(融合标注)示例

澳鹏3D点云拉框及2D映射(融合标注)示例

此外,MatrixGo还提供了模板引擎组件:支持脚本编程,可构建适配于项目定制化需求的工具,分钟级完成自定义工具,自定义工具与MatrixGo平台的数据统计等各流程节点直接集成。MatrixGo最重要的亮点是工作流调度:面向海量任务,支持高并发呑吐架构,平台上单点能够支持每秒3万任务的吞吐量,还可无限自动横向扩容;工作流并行消费数据中心的数据,进行各自生产再向统一节点进行交付;在项目生产过程中,项目经理可以随时修改任务,平台自动确保数据统计等正确。

张童皓强调,推出MatrixGo 私有化版本主要是为了满足对数据安全有更高诉求、在合规性方面有更高要求的中大型公司,科研和小型创业公司则更适合公有云SaaS方式。特别是MatrixGo的SaaS版本可对接澳鹏全球的数据标注众包人力资源并可通过扩展支持私有化文件服务的方式增强安全性,可满足中国企业出海的需求。目前,澳鹏中国的主要客户包括互联网、高科技、自动驾驶、AI创业公司、零售、医疗、高校等,2022年还将拓展更多的传统企业数字化转型市场。

总结来说:2022年是整个AI产业的一个分水岭,更高自动化程度的AI数据标注平台,正在定义整个模型生命周期内的AI模型质量与效果。AI数据标注的工业化运作,让DataOps成为了整个AIOps中最重要的环节。当前,互联网和高科技企业正在引领这一大趋势,未来将有更多的科技企业和传统企业数字化转型也将采用专业的AI数据标注平台。以澳鹏中国MatrixGo为代表的AI数据标注平台,将成为AI发展的重要赋能平台。

(注1:北京智源人工智能研究院:《2021人工智能的认知神经基础》白皮书。)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/694723.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Rust ?运算符 Rust读写txt文件

一、Rust ?运算符 ?运算符:传播错误的一种快捷方式。 如果Result是Ok:Ok中的值就是表达式的结果,然后继续执行程序。 如果Result是Err:Err就是整个函数的返回值,就像使用了return &#xff…

电脑wifi丢失修复

当你打开电脑突然发现wifi功能不见了,可以先查看一下网卡的状态 在控制面板中找到设备管理器,打开就能找到网络适配器, 我这里是修复过的,wifi丢失后这里可能会显示WALN是丢失的,其他项显示黄色感叹号。 如何修复呢…

Go语言中的TLS加密:深入crypto/tls库的实战指南

Go语言中的TLS加密:深入crypto/tls库的实战指南 引言crypto/tls库的核心组件TLS配置:tls.Config证书加载与管理TLS握手过程及其实现 构建安全的服务端创建TLS加密的HTTP服务器配置TLS属性常见的安全设置和最佳实践 开发TLS客户端应用编写使用TLS的客户端…

[游戏开发][虚幻5]新建项目注意事项

鼠标右键点击Client.uproject文件,可以看到三个比较关键的选项, 启动游戏,生成sln解决方案,切换引擎版本 断点调试 C代码重要步骤 如果你想断点调试C代码,则必须使用使用代码编译启动引擎,你需要做几个操作…

Backend - Docker 离线卸载

目录 一、卸载 docker 1. 停止 docker 2. 删除相关文件 3. 重新加载配置文件 4. 移除 docker 二、卸载 docker-compose 三、查看 Docker-compose 和 Docker、docker.service 是否卸载干净 1. 首先确定自己安装的目录 2. 进入这三个目录下查看文件夹 3. 删除docker-se…

Python 正斜杠 (斜杠 /) 和反斜杠 (倒斜杠 \)

Python 正斜杠 [斜杠 /] 和反斜杠 [倒斜杠 \] 1. Windows2. LinuxReferences 1. Windows 倒斜杠有两个,因为每个倒斜杠需要由另一个倒斜杠字符来转义。 Microsoft Windows [版本 6.1.7601] 版权所有 (c) 2009 Microsoft Corporation。保留所有权利。C:\Users\fore…

从零开始学习Netty - 学习笔记 - NIO基础 - 网络编程: Selector

4.网络编程 4.1.非阻塞 VS 阻塞 在网络编程中,**阻塞(Blocking)和非阻塞(Non-blocking)**是两种不同的编程模型,描述了程序在进行网络通信时的行为方式。 阻塞(Blocking)&#xff1…

C#中使用list封装多个同类型对象以及组合拓展实体的应用

文章目录 一、list使用方法二、C#组合拓展实体 一、list使用方法 在C#中&#xff0c;使用List<T>集合是封装多个同类型对象的常用方式。List<T>是泛型集合&#xff0c;T是集合中元素的类型。下面是一个简单的例子&#xff0c;演示如何创建一个List<T>&#…

鸿蒙 gnss 开关使能流程

先WiFi&#xff0c;后 定位&#xff0c;再从蓝牙到NFC&#xff0c;这个就是我大致熟悉开源鸿蒙代码的一个顺序流程&#xff0c;WiFi 的年前差不多基本流程熟悉了&#xff0c;当然还有很多细节和内容没有写到&#xff0c;后续都会慢慢的丰富起来&#xff0c;这一篇将开启GNSS的篇…

js设计模式:计算属性模式

作用: 将对象中的某些值与其他值进行关联,根据其他值来计算该值的结果 vue中的计算属性就是很经典的例子 示例: let nowDate 2023const wjtInfo {brithDate:1995,get age(){return nowDate-this.brithDate}}console.log(wjtInfo.age,wjt年龄)nowDate 1console.log(wjtInf…

mq大量消息堆积有哪些解决方案

当消息队列中出现大量消息堆积时&#xff0c;可能会导致系统性能下降、消息延迟增加以及服务不可用等问题。针对这种情况&#xff0c;可以采取以下几种解决方案&#xff1a; 增加消费者数量&#xff1a;增加消费者数量可以提高消息消费的速度&#xff0c;缩短消息队列中消息的处…

在 Windows 上安装 Redis 过程全记录(使用WSL在Windows中搭建虚拟环境)

在Windows上使用Redis进行开发 Windows 上不正式支持 Redis。但是&#xff0c;您可以按照以下说明在 Windows 上安装 Redis 进行开发&#xff0c;本教程采用WSL方式安装Linux虚拟环境&#xff08;并非唯一方式&#xff0c;也可通过其他方式安装Linux虚拟环境&#xff0c;本教程…

flink分区与算子链

flink分区与算子链 flink 分区策略flink 什么情况下才会把 Operator chain 在一起形成算子链&#xff1f; flink 分区策略 GlobalPartitioner 数据会被分发到下游算子的第一个实例中进行处理RebalancePartitioner 数 据会 被循 环发 送到 下 游的 每一 个实 例中 进 行处 理。…

【算法与数据结构】1020、130、LeetCode飞地的数量 被围绕的区域

文章目录 一、1020、飞地的数量二、130、被围绕的区域三、完整代码 所有的LeetCode题解索引&#xff0c;可以看这篇文章——【算法和数据结构】LeetCode题解。 一、1020、飞地的数量 思路分析&#xff1a;博主认为题目很抽象&#xff0c;非常难理解。想了好久&#xff0c;要理解…

【蝶变跃升】壹起来|就业辅导系列活动——职业生涯规划和模拟面试

为使困难家庭更深层次了解自己就业现状&#xff0c;明确就业方向&#xff0c;同时提升在面试时的各类技巧。2024年2月17日&#xff0c;由平湖市民政局主办、平湖吾悦广场和上海聘也科技有限公司协办、平湖市壹起来公益发展中心承办的“蝶变跃升”就业辅导系列——职业生涯规划和…

2024新版Java高频面试题+Java八股文面试真题

Java面试题_2024新版Java高频面试题Java八股文面试真题 Java高频面试专题视频课程&#xff0c;瓤括了Java生态下的主流技术面试题&#xff0c;课程特色&#xff1a; 1、全面&#xff0c;jvm、并发编程、mysql、rabbitmq、spring、mybatis、redis、分布式、微服务、数据结构等等…

零基础到高级:Android音视频开发技能路径规划

音视频开发趋势 Android音视频开发领域目前正处于一个高速发展的阶段&#xff0c;主要趋势如下&#xff1a; 超高清视频&#xff1a;4K视频亚毫米级显示清晰&#xff0c;更加逼真&#xff0c;为开发更加逼真的虚拟现实应用提供了基础。AI技术&#xff1a;自适应码率控制、视频…

GIT使用和简介

Git 是一个版本控制系统&#xff0c;它可以追踪文件的更改&#xff0c;并可以在不同的分支上进行并行开发。下面是 Git 的基本概念和使用方式的解释&#xff1a; 1. 仓库&#xff08;Repository&#xff09;&#xff1a;仓库是用来存储项目代码的地方。一个仓库可以包含多个文…

Flutter学习4 - Dart数据类型

1、基本数据类型 num、int、double &#xff08;1&#xff09;常用数据类型 num类型&#xff0c;是数字类型的父类型&#xff0c;有两个子类 int 和 double 通过在函数名前加下划线&#xff0c;可以将函数变成私有函数&#xff0c;私有函数只能在当前文件中调用 //常用数据…

Oracle误删除数据文件恢复---惜分飞

有客户通过sftp误删除oracle数据文件,咨询我们是否可以恢复,通过远程上去检查,发现运气不错,数据库还没有crash,通过句柄找到被删除文件 oraclecwgstestdb[testwctdb]/proc/20611/fd$ls -ltr total 0 lr-x------ 1 oracle oinstall 64 Feb 20 14:03 9 -> /oracle/db19c/rdbm…