揭秘人工智能背后鲜为人知的人工力量——数据标注

来源:帮尼资讯

部分参考来源:大数据文摘、点宽DigQuant

图片来源:网络

尽管随着AI的普及,我们在生活中越来越依赖于人工智能,但“人工智障”的相关调侃也从来没有消失过。

相信大家都知道,如果我们想要让AI准确识别出图中的鸟,我们需要在数据集中手动将这些照片标记为鸟,然后让算法和图像之间产生关联性的判断识别。

 

要是小规模的实验性数据还好,一旦遇到那种规模多达数百万个的标记需求,个中消耗的时间真是难以想象。

所谓“得数据者,得人工智能”,如今人工智能早已在我们的生活中屡见不鲜,像“指纹解锁”、“人脸识别”等等都属于人工智能的范畴,然而人工智能的上游基础产业,数据标注却鲜为人知。

什么是数据标注?

在了解数据标注之前,先来了解人工智能。

人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。

人工智能,其实是部分替代人的认知功能。人工智能算法是数据驱动型算法,也就是说,如果想实现人工智能,首先需要把人类理解和判断事物的能力教给计算机,让计算机学习到这种识别能力。

类比机器学习,我们要教它认识一只猫,直接给它一张猫的图片,它是完全不知道这是什么。

 

我们得先有猫的图片,上面标注着“猫”这个字,然后机器通过学习了大量的图片中的特征,这时候再给机器任意一张猫的图片,它就能认出来这是猫了。

 

训练集和测试集都是标注过的数据,以猫为例,假设我们有1000张标注着“猫”的图片,那么我们可以拿800张作为训练集,200张作为测试集。机器从800张猫的图片中学习得到一个模型,然后将剩下的200张机器没有见过的图片去给它识别,然后我们就能够得到这个模型的准确率了。

所以目前人工智能需要标注大量数据,即对原始信息进行数据标注。

数据标注为通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习基础素材的过程。

数据标注是大部分人工智能算法得以有效运行的关键环节。数据标注是把需要机器识别和分辨的数据贴上标签,然后让计算机不断地学习这些数据的特征,最终实现计算机能够自主识别。

数据标注的应用场景

智能安防

智能安防是人工智能与信息技术结合的关键领域,对于城市与民生发展有重要的意义。通过生物识别、行为监测等技术手段,广泛地应用于城市道路监控、车辆人流监测、公共安全防范等领域。

人脸标注在智能安防中主要应用于人脸识别与身份识别。

 

人脸识别也称人像识别、面部识别,是基于人的脸部特征信息进行多年龄段、多角度、多表情、多光线的人脸图像采集,从而完成身份识别的一种生物识别技术。人脸识别涉及的技术主要包括计算机视觉、图像处理等。

人脸识别(视觉识别技术的一种应用)在国内的应用大致经历从公共安全领域扩展到商业领域的过程。最初,机场、高铁站以及酒店等场景使用这项技术对个人身份进行验证,随后商业银行也开始采用人脸识别实现远程开户。再之后,刷脸支付、刷脸门禁也相继出现,人脸识别逐渐从少数有限场景渗透到人们的日常生活之中,目前,人脸识别技术已广泛应用于多个领域,除了智能安防之外,还应用于金融、司法、公安、边检、航天、电力、教育、医疗等众多领域。

此外,物品标注在智能安防应用中,物品标注需要和行为标注结合。

 

智能交通

近年来,随着人工智能浪潮的兴起,无人驾驶、智能交通安全系统一度走进我们的生活,国内许多公司纷纷投入到自动驾驶和无人驾驶的研究,例如百度启动的“百度无人驾驶汽车”计划,其自主研发的无人驾驶汽车Apollo还曾亮相2018年央视春晚。

在汽车自动驾驶的过程中,想要让汽车本身的算法做到处理更多、更复杂的场景,背后就需要有海量的真实道路数据做支撑。而这就需要依靠数据标注。

 

此外还有智慧停车,这些也都要依赖于人工智能数据标注的介入,对于行车视频进行采集,路况进行提取,停车点进行标注,包括D点云障碍物、红绿灯、车道灯及高精地图。为行人识别、车辆识别、红绿灯识别、车道线识别等技术提供精确训练数据,为智能交通保驾护航。

智能医疗

智能医疗是通过打造健康档案区域医疗信息平台,利用最先进的物联网技术,实现患者与医务人员、医疗机构、医疗设备之间的互动,逐步达到信息化。AI与医疗行业的结合将有望迎来跨越式发展。

医疗影像标注是对医疗影像进行区域标注及分类标注,多应用于辅助临床诊断。人工智能通过学习大量的医疗影像标注数据集,将会很好的辅助医生进行临床诊断以及提出治疗方案。

 

得数据者,得人工智能

人工智能主要算法应用领域集中在计算机视觉、语音识别/语音合成,以及自然语言处理三个方面。

图像方面:一个新研发的计算机视觉算法需要上万张到数十万张不等的标注图片训练,新功能的开发需要近万张图片训练,而定期优化算法也有上千张图片的需求,一个用于智慧城市的算法应用,每年都有数十万张图片的稳定需求。

语音方面:头部公司累计应用的标注数据集已达百万小时以上,每年需求仍以20%-30%的增速上升,要求数据服务商不仅要掌握专业的声学知识、数据标注经验,还要拥有语音合成的算法能力。

自然语言处理方面:随着工业、医疗、教育的AI应用产品进一步爆发,将会有更多交互方式出现,自然语义数据处理的需求将会持续增长,有望成为继图像、语音之后的第三大增量市场。

有多少智能,就有多少人工

这些海量的数据几乎全部依赖数据标注师手工进行标注,数据标注行业的缺口十分可观,并且数据标注已经在各行业产生了极广的应用,行业也开始逐渐升级,走向产业化。

在数据标注行业流行着一句话,“有多少智能,就有多少人工”。

近日,来自普林斯顿大学、康奈尔大学、蒙特利尔大学以及美国国家统计科学研究院共同发表的最新论文指出,这部分手动标记工作大多在美国及其他西方国家之外完成,并对全球各地的工人施以残酷剥削。

以 Sama(原 Samasource)、Mighty AI 以及 Scale AI 等数据标记公司为例,他们主要使用来自撒哈拉以南非洲以及东南亚地区的劳动力,每天支付给员工的薪酬仅为 8 美元(折合成人民币为 51.6 元)。但与此同时,这些企业每年却能赚取数千万美元的巨额收益。

 

现代人工智能依赖各种算法处理规模达数百万的示例、图像或文本素材。但在此之前,首先需要由工作人员在图片数据集中手动标记出对象,再将标记完成的大量图像交付给算法以学习模式,掌握如何准确识别对象。这类工作量极大、过程极其枯燥且耗时的手动数据标记过程,已经成为 AI 经济体系中的重要组成部分。

未来,随着AI应用场景逐渐多领域化,在数据标注行业内部,从业者也必将随着AI行业而一同进入细分市场追逐阶段,可谓机遇与挑战并行。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484985.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

诺贝尔奖也难以衡量其贡献,杨振宁的杨-米尔斯理论到底多厉害?

来源:宇宙时空杨振宁先生的贡献,宇称不守恒,打破了诺贝尔奖颁奖的时间记录,比爱因斯坦快了整整16年。可是,跟杨-米尔斯理论相比,它简直不值一提。如果把人类的科学发展比作一场大型的通关游戏现场&#xff…

美国科研欲重回阿波罗登月水平,基础科学投入计划翻倍

来源:机器之心编辑:泽南、小舟在与中国的全面竞争中,美国希望能在基础科学领域里保持领先,对此其不惜准备将经费投入重新提高到 20 世纪 60 年代「阿波罗登月计划」时期的最高水平。美国众议院科学委员会希望在未来五年内将国家科…

django模板系统(上)

filters 过滤 default 替代作用 filesizeformat 格式化为人类可读 add 给变量加参数 lower 小写 upper 大写 title 标题 ljust 左对齐 rjust 右对齐 center 居中 length 返回value的长度 slice 切片 first 取第一个元素 last 取最后…

模仿大脑:下一代计算机

《环球科学》供图光明图片/视觉中国光明图片/视觉中国文章来源:光明日报作者:茱莉格洛利耶【环球科技】引 言在过去几年中,人工智能算法取得了巨大的进步。它在我们日常生活中的应用越来越普遍,经常被用于分析文本或图片的内容&a…

新能源关键技术预见的研究

来源:微信公众号科学家,原载于《今日科苑》2020年第11期作者:刘进萍、卢世刚1. 引言新能源是指采用新技术和新材料正在开发利用的新型能源,既包括风能、太阳能、生物质能等可再生能源,也包括核能、氢能等其他非化石能源…

谷歌前CEO:美国科技优势面临最危险时刻

文章来源:VOA,2021-03-28 ,不代表本平台立场图片来源:GETTY IMAGES、知乎、网络等编辑:阿丽西娅中国在人工智能(AI)发展的多项指标上直逼美国优势,有些领域甚至已经实现超越。许多分…

CoreJava学习第五课 --- 进入第二阶段:面向对象编程思想

面向对象编程思想 1.面向过程 ​ 从计算机执行角度出发 ,代码执行过程核心为从程序的运行过程出发,构建编程思路,例: 哥德巴赫猜想 // 面向过程1 用户输入一个数n2 验证数字的正确性2.1 正确就继续向下2.2 错误就重复输入3 拆数 循环 nab4.判断 a和b同…

波士顿动力的仓库机器人Strentch来了,挑战每小时搬运800个箱子

来源: 雷锋网作者:杨丽编译:TheVerge雷锋网讯,波士顿动力以其机器狗Spot和双足人形机器人Atlas而闻名。不过近年来,该公司开始将目光投放到物流领域,并于日前发布了一款名为Strentch的新型仓库物流机器人。…

下一代人工智能

来源:人机与认知实验室翻译:朱浩然摘要:人工智能和机器学习的最新研究在很大程度上强调了通用学习和越来越大的训练集以及越来越多的计算。相反,我提出了一种以认知模型为中心的混合,知识驱动,基于推理的方…

Arm十年最大更新:V9架构正式发布

来源:由半导体行业观察(ID:icbank)编译:「anandtech」自Arm在2011年10月首次发布Armv8架构以来,已经过去了近十年的时间。这对Arm来说是一个相当可观的十年,因为在这段时间内,他们的指令集架构受…

Lodop打印设计界面生成代码带”...(省略)”

Lodop的设计界面中,菜单里的生成代码,如果打印项内容过多,后面会显示”...(省略)”,省略的是打印项的内容值,无论是纯文本还是超文本,都可以用选中打印项-右键-设置属性里找到该打印项的全部值,…

南洋理工大学研发植物“通信”设备,未来可成为环境探测器

来源:MEMS 最新研究成果由新加坡南洋理工大学(NTU)领导的一个科学家团队开发了一种可以向植物发送电信号和从植物接收电信号的设备,为利用植物的新技术打开了大门。团队的发现于今年1月25日刊登于国际知名科学期刊《自然》属下的…

服务器核心知识

电脑:辅助人脑的工具 现在的人们几乎无时无刻都会碰电脑!不管是桌上型电脑(桌机)、笔记型电脑(笔电)、平板电脑、智慧型手机等等,这些东西都算是电脑。虽然接触的这么多,但是,你了解电脑里面的元件有什么吗&#xff1f…

杜克大学和Facebook联手开发更好的光通信

来源:IEEE电气电子工程师Illustration: Duke UniversityA close-up depiction of the new fiber-free optical WiFi antenna. Silver nanocubes are spaced just a few nanometers above a silver base, with fluorescent dyes sandwiched in between. The physical…

优动漫PAINT核心功能介绍

优动漫PAINT是一款功能强大的动漫绘图软件,适用于个人和专业团队创作,分为个人版和EX版。搭载了绘制漫画和插画所需的所有功能——丰富的笔工具、超强的笔压感应和手颤修正功能,可分别满足画师对于插画、漫画和动画创作的针对性需求。 1. 实现…

2020图灵奖颁给“龙书”两位作者!合作数十年,他们让计算机读懂码农代码

来源:大数据文摘作者:Caleb就在昨天,2020年图灵奖公布了获奖名单。哥伦比亚大学计算机科学名誉教授Alfred Vaino Aho和斯坦福大学计算机科学名誉教授Jeffrey David Ullman共享了这一殊荣。根据国际计算机协会(ACM)报道…

机器学习泰斗迈克尔 · 乔丹:不是什么都叫AI的

来源:IEEE Spectrum作者:Kathy Pretz编译:机器之心编辑:小舟、张倩「人工智能系统还远远不够先进,无法在涉及推理、运用现实世界知识和社交互动等许多任务中替代人类。」机器学习先驱迈克尔 欧文 乔丹(Mi…

经典数值优化算法--专题学习

通用的损失函数最优化的数值方法,来源于泰勒展开式,多元函数的泰勒展开式为: 一、一阶逼近与一阶方法 一阶泰勒展开式: 其中,是代表了β变化的可能性,t在之后说到的梯度下降方法中演变成了学习速率。 现在&…

美国雷神公司对第六代战斗机的任务系统提出六点预测

来源:转载自公众号 “空天防务观察”图片:来源于网络编辑:朱锦锟审阅:原熙文2021年3月29日,美国雷神技术公司旗下的雷神情报与太空公司刊文,称该公司的工程师们针对可在未来“第六代”战斗机上运行的任务系…

【专家观点】张亚勤、张宏江:人工智能的未来是什么?

来源:智能研究院“我们打造一个规模庞大的系统时,更需要具备系统思维,同时拥有动手能力、喜欢搭系统的人才……诞生至今,智源一直肩负着三项重要任务:一是构筑一个社区。二是打造一个真正适合青年科学家成长的平台。三…