AI式剥削:数据标注人员日薪低至51块钱

来源:AI前线

编译:核子可乐、钰莹

最新论文指出,AI 行业正在残酷压榨刚刚兴起的全球零工经济体系。

现代人工智能依赖各种算法处理规模达数百万的示例、图像或文本素材。但在此之前,首先需要由工作人员在图片数据集中手动标记出对象,再将标记完成的大量图像交付给算法以学习模式,掌握如何准确识别对象。这类工作量极大、过程极其枯燥且耗时的手动数据标记过程,已经成为 AI 经济体系中的重要组成部分。

AI 数据标注大量依赖廉价外包

在数据标注行业流行着一句话,“有多少智能,就有多少人工”。数据标注是人工智能发展中至关重要的一环,却常常容易被人忽视。

相对而言,数据标注是人工智能领域“入门级”的工种,单从工作流程看,其技术含量较低,人是这项工作中最大的影响“因素”,久而久之,“劳动密集型”成为外界给数据标注行业贴上的一个标签。低门槛吸引了众多农民、学生、残疾人群体加入到数据标注大军中,在我国河南、河北、贵州、山西等地的四五线城市还出现了一些特色的“数据标注村”。

不止中国,向劳动力更充足、成本更低的地方迁移也是全球数据标注行业的发展趋势。印度涌现了不少数据标注村,他们为美国、欧洲、澳洲和亚洲的 AI 公司服务,Facebook 就曾将部分社交内容标注的工作外包给了一家印度公司。

近日,普林斯顿大学、康奈尔大学、蒙特利尔大学以及美国国家统计科学研究院共同发表的最新论文指出,这部分手动标记工作大多在美国及其他西方国家之外完成,并对全球各地的工人施以残酷剥削。

以 Sama(原 Samasource)、Mighty AI 以及 Scale AI 等数据标记公司为例,他们主要使用 来自撒哈拉以南非洲以及东南亚地区的劳动力,每天支付给员工的薪酬仅为 8 美元(折合成人民币为 51.6 元)。但与此同时,这些企业每年却能赚取数千万美元的巨额收益。

再来看在线零工平台 Amazon Mechanical Turk,世界各地的任何人都能够在此登录并执行简单任务,快速赚取相应收益。在 2019 年之前,Mechanical Turk 仅支持使用美国本地银行账户收付款,就是说在该平台上工作、但无法使用美国银行业务的员工根本拿不到应得的收入,而只能用自己的劳动换取 Amazon 商城礼品卡。

根据论文调查,ImageNet 已经成为人工智能历史上最具影响力的数据集之一,但其实现基础依靠的却是时薪只有区区 2 美元的零工。

此外,由于待标记数据已经由美国或其他西方国家的开发者及程序员进行过初筛,因此外部标记人员的介入并不能在数据集中充分体现全球文化背景。

论文提到,“同样是拍摄自婚礼现场的新郎照片,算法识别美国新郎的准确率就远远高于对埃塞俄比亚或巴基斯坦的新郎图像分类水平。虽然这些地区有很多工人都在为 AI 系统默默做出贡献,但系统本身对这些代表性较低的群体仍存在严重偏见。他们的努力付出,并不能直接令所处本地社群受益。”

研究人员们还写道,应对这方面问题的潜在解决方案可能是将数据标记人员真正纳入到 AI 开发流程当中。在破除毫无话语权的零工身份之后,工人们有望得到更公平的报酬,并凭借自己的洞见与专业知识解决数据收集过程中的种种差异,最终提高算法产品的整体准确率。

论文还提到 Masakhane,一家致力于通过人工智能技术保护非洲语言的组织。作为公平 AI 的典型案例,Masakhane 不会为 AI 研究人员特别创建数据,而是建立起一个扎根于非洲大陆、汇聚数据标记 - 技术研究 - 算法构建人才的整体社区。

该组织在官方网站上写道,“我们要做的不仅仅是让非洲民众参与到数据生产或消费当中,而是将需求方、标记方乃至翻译方紧密联系起来。”

论文指出,如果企业决定将数据标记工作纳入业务流程,就应该给标记人员提供内部成长机会。

论文最后建议,“我们应该将 AI 开发视为经济发展的前进之路。这样一项开发活动不该只关注数据标记这类低生产率活动,而应更多强调模型开发 / 部署及研究等高生产率活动。”

机器标注比重提升,但很难取代人工

虽然整个行业已经开始向着机器标注的方向前进,但这很难取代人工。

《2019 年中国人工智能基础数据服务行业白皮书》分析指出,2010-2016 年为数据服务行业的“初生期”,早期数据标注需求激增,加之入行门槛低,涌入了大量玩家,鱼龙混杂。自 2017 年以来,伴随着 AI 深入落地到各个应用场景中,数据标注行业了进入成长期,上层应用端的厂商对数据标注质的要求不断提高,如自动驾驶、运动图像、计算机视觉等领域的数据标注难度很高。

行业格局渐渐清晰,马太效应明显。据了解,国内从事数据标注业务公司 / 团队约有几百家,其中独立做整个数据质量服务的约百余家,能够提供数据采标服务一体化的有几十家,能够提供高标准基础数据服务的仅有十几家。现阶段,下游 AI 算法研发单位多将业务分流给不同数据服务公司加之数据标注相关标准待完善,该行业还没有出现大的巨头公司。

这是一个尚未饱和的市场,同样,这也意味着巨大的发展空间。数据标注行业已经开始进入到人机协作的阶段,数据标注市场需求量仍旧很大,需要更加专业的人及高效的机器协助,机器标注所占的比重会不断提升,AI 技术与数据互补,通过 AI 技术提升数据效率,数据反过来服务于技术。

为降低人工成本,提高效率,不少互联网技术公司及第三方数据服务商在开发自己的标注工具。2019 年 10 月,Google 发布了用于完整图像标注的人机协作接口 Fluid Annotation,利用它标注图像中每个对象和背景区域的类标签与轮廓,可将标注数据集的创建速度提高三倍。数据标注众包平台也不断涌现,京东众智、百度众测、figure-eight、亚马逊的 Mechanical Turk 等。

未来,机器标注、人工辅助将成为可以预见的发展趋势。这对“数据标注村”来说或许并不是一件好事,但机器很难完全取代人工。现阶段人工标注的准确度要高于机器,机器只能跑出有一定比例的正确结果,更精确的结果仍需要人工来标注,且发挥的作用更关键。此外,在质检环节,人的作用也无可替代,最终的结果要靠精细化的人工校对。

参考链接:

https://onezero.medium.com/the-a-i-industry-is-exploiting-gig-workers-around-the-world-sometimes-for-just-8-a-day-288dcce9c047

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/485243.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringCloud03 Ribbon知识点、 Feign知识点、利用RestTemplate+Ribbon调用远程服务提供的资源、利用feign调用远程服务提供的资源、熔断...

1 远程服务资源的调用 1.1 古老的套路 在微服务出现之前,所有的远程服务资源必须通过RestTemplate或者HttpClient进行;但是这两者仅仅实现了远程服务资源的调用,并未提供负载均衡实现,所以程序员必须自己实现负载均衡功能&#xf…

一个没有意义的宇宙我们很难想象

© Pixabay来源:利维坦利维坦按:按照人择理论,“被观测的宇宙环境,必须允许观测者的存在”,我们似乎有理由相信,宇宙之存在有赖于观测者,不过,这个观测者一定是我们人类吗&#…

SpringCloud(二) 服务注册与发现Eureka

1.eureka是干什么的? 上篇说了,微服务之间需要互相之间通信,那么通信就需要各种网络信息,我们可以通过使用硬编码的方式来进行通信,但是这种方式显然不合适,不可能说一个微服务的地址发生变动,那…

Java打印三角形(双层for循环)

Java打印三角形(双层for循环) 1.第一个三角形&#xff1a; 打印样式&#xff1a; 外层for循环控制行数&#xff0c;内层for循环控制“*”的个数 public static void demo01(){//行数&#xff1a;4行for(int i1;i<4;i){/*找规律&#xff1a;第一行&#xff1a;1个*第二行…

深度学习后,图灵奖得主Bengio研究核心是什么?因果表示学习

机器之心报道编辑&#xff1a;魔王、杜伟在近日发表的一篇论文中&#xff0c;图灵奖得主 Yoshua Bengio 等详细介绍了其团队当前的研究重心&#xff1a;将机器学习与因果推理相结合的因果表示学习。研究者不仅全面回顾了因果推理的基础概念&#xff0c;并阐释了其与机器学习的融…

WPF使用Canvas绘制可变矩形

WPF使用Canvas绘制可变矩形 原文:WPF使用Canvas绘制可变矩形版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/WANGYAN9110/article/details/38130661 1、问题以及解决办法 最近因为项目需要&#xff0c;需要实现一个位置校对…

Java中关于自增自减

Java中关于自增和自减 关于自增和自减&#xff0c;一直困扰着我&#xff0c;总是学完了当时明白&#xff0c;过了没多长时间又忘了&#xff0c;学的也不牢固。经过老师这一次的讲解&#xff0c;总结的这篇博客&#xff0c;如有错误还请指正。 第一题&#xff1a; 加上括号好看…

《麻省理工科技评论》发布2021年“全球十大突破性技术”

全文共计8398字&#xff0c;预计阅读时间10分钟来源 | DeepTech深科技&#xff08;转载请注明来源&#xff09;编辑 | 蒲蒲正如比尔盖茨所说&#xff0c;看过这些突破性技术之后&#xff0c;你会觉得 “美好的未来&#xff0c;值得我们为之奋斗”。日前&#xff0c;《麻省理工科…

@Valid的坑

Valid 只能用来验证 RequestBody 标注的参数&#xff0c;并且要写在 RequestBody 之前 转载于:https://www.cnblogs.com/jichen/p/9561622.html

Java——String类的方法

Java——String类的方法 String str1 “abc” 与String str2 new String(“abc”)有什么区别&#xff1f; 字符串常量存储在字符串常量池&#xff0c;目的是共享字符串非常量对象存储在堆中 String的常用方法 常用方法1&#xff1a; int length()&#xff1a;返回字符串的…

OpenAI魔法模型DALL-E论文、代码公布!

来源&#xff1a;AI科技评论编译&#xff1a;AI科技评论OpenAI在1月5日公布DALL-E模型以来&#xff0c;人们都惊艳于模型的语言想象力是如此丰富和细致。如今&#xff0c;我们终于等到了论文的公布&#xff0c;从而得以了解DALL-E天马行空创造力背后的奥秘。值得一提的是&#…

Maven项目无法加载jdbc.properties

Maven项目无法加载jdbc.properties(java.sql.SQLException: The server time zone value ‘&#xfffd;й&#xfffd;&#xfffd;&#xfffd;׼ʱ&#xfffd;&#xfffd;’ is unrecog) 1.JdbcUtils.java package com.zxm.utils;import java.io.InputStream; import ja…

Hinton:我终于想明白大脑怎么工作了!神经学家花三十年,寻找反向传播的生物机制...

来源&#xff1a;智源社区作者&#xff1a;Anil Ananthaswamy编译&#xff1a;梦佳「有一天晚上&#xff0c;我回家吃饭&#xff0c;激动地说『我终于想明白大脑是怎么工作的了&#xff01;』我15岁的女儿对我说&#xff0c;怎么又来了&#xff0c;老爸。」 …

Mybatis学习笔记(一)——项目搭建、导入依赖、相关配置

Mybatis学习笔记&#xff08;一&#xff09;——项目搭建、导入依赖、相关配置 传送门&#xff1a;Mybatis中文网&#xff08;入门手册&#xff09;Mybatis中文网 一、新建项目 在项目中新建模块&#xff1a; 二、学习Mybatis常用的依赖&#xff1a; <dependencies…

数学与工业革命

来源&#xff1a;中科院数学与系统科学研究院作者&#xff1a;黄雷&#xff0c;中科院数学与系统科学研究院数学&#xff0c;无时无刻不散发着它独特的魅力。上到宇宙飞船遨游外太空&#xff0c;下至小商小贩行走菜市间&#xff0c;这门与每个人生活都息息相关的学科一直在默默…

AI回溯过去解决复杂任务 |《自然》论文

来源&#xff1a;Nature Portfolio根据《自然》本周发表的一项研究First return, then explore&#xff0c;一类增强学习算法在雅达利经典游戏中的得分超过了人类玩家和先进的人工智能系统&#xff0c;算法挑战的游戏包括《蒙特祖马的复仇》&#xff08;Montezuma’s Revenge&a…

python数据图形化—— matplotlib 基础应用

matplotlib是python中常用的数据图形化工具&#xff0c;用法跟matlab有点相似。调用简单&#xff0c;功能强大。在Windows下可以通过命令行 pip install matplotlib 来进行安装。 以下为一些基础使用的例子&#xff1a; 1、绘制直线 先通过numpy生成在直线 y 5 * x 5 上的一组…

Snipaste的安装及快捷键的设置

Snipaste的安装及快捷键的设置 关于Snipaste&#xff1a; Snipaste 是一个简单但强大的截图工具&#xff0c;也可以让你将截图贴回到屏幕上&#xff01;可以将剪贴板里的文字或者颜色信息转化为图片窗口&#xff0c;并且将它们进行缩放、旋转、翻转、设为半透明&#xff0c;甚…

人与机器人的交互理论及其前景

来源&#xff1a;人机认知与实验室摘要&#xff1a;移动机器人的人机交互正处于早期阶段。大部分与机器人相关的用户交互都被数控能力所限制&#xff0c;向用户提供的最普遍的界面是以自动化平台提供的视频和对机器人的一定程度上的路径指挥。对于半自动能力的移动机器人&#…

计算机组成原理——Cache与主存的地址映射

Cache–主存的地址映射 由主存地址映象到cache地址称为地址映射 cache的基本结构&#xff1a; Cache的工作过程&#xff1a; CPU发出一个地址&#xff0c;同时发给主存和cache的地址映射机构&#xff0c;CPU会从主存中取出字还是从cache中取出字&#xff0c;主存将块号送入主…