来源:云头条
引言:纵观历史,对企业界而言改变游戏规则的始终是技术。制造商取代手艺人,工厂从制造商手里接过接力棒,自动化和遥测技术取代大部分重复性的人力劳动。从个人计算机到互联网和移动商务,在过去的30年间,全世界见证了数字经济的崛起,数字经济正迅速取代商品经济。
很显然,下一个最大的变化来自AI。应用型AI(applied AI)有望彻底改变一切:健康、金融、房地产、运输及旅游、制造、营销及销售、农业、能源、商业服务、决策乃至政治。它将把历史分为AI前时代和AI后时代。自主机器人、与人类对话的计算机、自动驾驶汽车以及数百种语言的自动翻译:人类想象力的这些产品现在变成了现实。
又由于AI仍处于起步阶段,本地化和语言服务专业人员需要准备好在这种环境下工作。大门是敞开的。
本报告包含的信息
- 长话短说
- AI是根本性变革
- 自然语言处理方面的机会
- 当心:AI不是必然会成功的道路
长话短说
- AI是变革性的:AI从未像现在这么普及——我们目睹机器学习和AI平台遍地开花。工程师人数在增加。大家紧跟AI潮流。84%的企业在采用AI,因为它们认为AI可以带来竞争优势。
- 自然语言处理:自然语言处理(NLP)是AI的子领域,涵盖计算机和人类语言之间的交互。它包括语音识别、自然语言理解、自然语言生成和机器翻译。使用场景从信息检索、情绪分析到聊天机器人,不一而足。
- AI项目失败的原因:不切实际的期望、采用方面的高准确度阈值、没有关注业务目标、缺少高质量数据。
- 几个成功因素:传达和设定期望的能力、高度关注切合实际的目标和使用场景、多语言数据质量及注重维护以及外包、外包、外包。
AI是当今商业界最重大的根本性变革
每个人都能享用的资源
自2000年代初深度学习问世以来,AI已变得更普及了。现在准入门槛更低。AI和机器学习不再是科学家、程序员和深度技术开发人员的范畴,如今已为普通人所用。
这是最近的动向。2015年,亚马逊推出了Machine Learning,微软推出了Azure ML。2018年,谷歌推出了AutoML。科技巨头的这些在线工具提供了训练定制AI模型的能力。标准化API使得将AI连接到任何软件或应用程序变得相当简单。用于试验的沙盒帐户通常是免费的,启动跟注册一样容易。较新的版本带来了构建AI的拖放式界面,因此从理论上讲,连孩子也能构建AI。
机器学习和AI培训课程数量激增,大学、在线学习平台以及Facebook、谷歌和微软之类的公司开设课程。培训计划的大部分是免费的。有众多的机器学习会议及编程马拉松、社交媒体组织、帮助网站以及当地社区,很容易获得帮助。这意味着机器学习工程师的人数将在3至5年内从2017年的估计30万人增加到数百万。这是科技巨头应对人才短缺这个难题的方法之一。
对于不希望依赖科技巨头、更喜欢自己动手做的人来说,神经网络代码已经开源。最好的工具包可在Github上免费下载。用户要了解编程,并能够区别卷积神经网络和生成式对抗网络。不过,这与从头开发机器智能不一样,它更像是乐高积木。
日益普及意味着AI现在是任何人的宝贵资源,而不是专供高高在上的常春藤联合会名牌大学的学生和谷歌天才使用。对于从事语言服务业的人来说,这个消息令人振奋。
本地化的机会
今天开发的AI以英语为主。
开发AI的专家通常从单一语言的角度出发。IT工程师和数据科学家使用英语进行技术交流,并将英语带入到用户交流。尝试AI的市场营销、支持和产品专家专注于在其领域的应用。与往常一样,本地化是事后才想到的。
实际上,客户及其数据使用多种语言,在AI开发的早期阶段利用本地内容蕴含大好的机会。
不要等!找到贵公司的AI计划,在早期阶段与领导者合作以添加全球视野。分享功劳。
超越神经机器翻译
拥有本地化背景的人经常陷入将AI与神经机器翻译(NMT)划上等号这个陷阱。一开始,机器翻译(MT)一直是AI的典型应用,也是最惹眼、最热议的话题。
机器翻译的演变
与其前身一样,如今NMT是几乎各种语言服务的驱动力,将来可能更是如此。它对语言服务行业具有深远的影响,但仍存在一些挑战。
AI变得日益普及时,NMT仍面临一道障碍
虽然总的来看,NMT基本上比SMT更胜一筹,并取代了SMT,但在技术要求和操作复杂性方面仍相当昂贵且具有挑战性,因此大多数客户无法享用。此外,NMT绝非易事。NMT不仅需要大量数据,所需的底层基础架构和知识也非常繁重、充满挑战。
因此,迄今为止,NMT舞台上有一个主角、有两个配角以及争取上台的几个跑龙套的演员。
NMT性能不可靠
实际上,除了公共基准测试方面显示优异的性能、部署中迅速采用和稳步改进外,还存在性能不佳的报道,比如系统在资源匮乏的条件下构建,这证实NMT系统在本领域外质量较低。这意味着学习曲线在训练数据的数量、最重要的是质量方面可能很陡。为了正确处理数据,需要的不仅仅是基本技能,从评估所需的技能入手(评估是一项艰巨的任务)。对于NLP应用和面向长尾语言的NMT而言,这一切描绘的场景更黯淡了;如果没有适当的技能和优秀的大量数据,需求无以为继。
NMT对用户(甚至操作员)并不友好
此外,NMT系统仍难以解释。人工神经网络可能最广为人知的缺点是黑盒子特性,这意味着你永远不知道它们如何、最重要的是为何得到某个输出。这使得任何改进都极其复杂、随机。
不像你想的那样受欢迎...
有时语言服务业的每个人似乎都在谈论神经机器翻译,这让我们相信它已被广泛采用,但事实未必如此。77%以上的企业并未广泛使用神经机器翻译,不过许多企业有兴趣试行新计划。
上述数据取自对企业本地化经理的行业范围调查,评估在各自的计划中如何使用(或不使用)NMT。
有人在晋升
高管们认为,AI是业务驱动力和战略性差异化因素,是对公司未来的一项关键投资。Statista的调查发现,84%的企业在采用AI,原因是它们认为AI带来竞争优势。在这种环境下,许多高管渴望投资于任何有望发挥AI力量的计划。
这为这些公司的经理们提供了一个新的机会,可以推动个人和团队目标在所在企业内的实现。通过积极拥抱和引导对AI的这股热情,经理们将引起高层管理班子的关注,从而让他们更有机会实现个人和职业目标。
换句话说,AI不仅为企业带来了战略性差异化优势的机会,还为那些企业内的个人带来了机会。有兴趣利用这些机会的专业人员会完全接受这个新现实。
自然语言处理方面的机会
自然语言处理(NLP)是AI的子领域,涵盖计算机与人类语言之间的交互,尤其是计算机如何处理、解析和理解自然语言。自然语言处理包括语音识别、自然语言理解、自然语言生成和机器翻译。
结合信息检索、机器学习和情感分析等AI技术,NLP为在客户交互、信息监控、数据挖掘和专家系统等领域创造突破性机会奠定了基础。NLP让专业人员得以查找信息,并将主题领域的集体知识运用于个别情况。
让科技巨头和专业公司应对根本性挑战,比如使AI易于使用、让定制和部署更快速更省钱、提高AI的准确性,以及培训足够多的机器学习工程师以满足需求。对于大多数企业而言,它们需要回答一个关键的实用问题:如何将AI应用于主题领域。AI的重大承诺是大幅提升效率、发掘新的机会。你该如何实现?
NLP的十种热门使用场景
自然语言处理在各行业的示例
机器学习和自然语言处理可应用于各行各业。以下是一些AI初创公司和老牌公司的AI实施项目。
- 医疗
医疗AI广泛使用图像识别和注释进行诊断。如今涌现的预测专家系统可将患者症状和医疗设备的测量值相匹配。将数据从纸张和医院记录进入到结构化数据库中以提高药物效率是NLP面临的一大挑战。
挑战:内容可以用英语生成并翻译还是直接以每种语言生成?
- 金融
金融业是AI应用广泛的行业,大量使用预测系统。最近的动向包括新闻和社交媒体监听,以了解对股票行情估值的影响。聊天机器人涉足个人理财和银行业务,以促进自助服务,并提高银行客户支持系统的效率。
挑战:针对诸多语言和地域,实施AI以加快尽职调查活动。
- 法律
司法和法律两个领域大量使用语言AI和机器翻译。可以用一个数据库来跟踪和总结跨多个司法辖的新法规。检察官扫描硬盘,以查找多种语言的数字证书,这个过程名为电子数据开示(eDiscovery)。分析和专家系统旨在根据案件材料和法官个性预测法庭结果。
挑战:在移民法院提供自动虚拟口译。
- 媒体
媒体的核心内容是语言、语音和视频。AI驱动的监控系统扫描新闻并进行解读。字幕系统将口语实时转换成文本,以进行进一步的分析和翻译。图像识别系统识别屏幕上的演员和角色以匹配内容和广告。
挑战:电影和纪录片中自动实现唇型同步。
- 能源
能源分配和效率是能源行业运用AI来克服的两大具体挑战。由于更多的个人发电厂集成到电网中,加上风能和太阳能等间歇性能源,AI可以使能源分配更智能化,有助于开发电能市场。
挑战:使用AI来影响气候变化。
- 其他行业
几乎每个行业都能得益于AI和NLP取得的进步,这些进步可用于跨多种语言的客户交互、新闻/评论/社交媒体监听、将零星分散的公司信息转换成结构化数据、确保客户体验更顺畅的信息检索和语音UI。
当心:AI不是必然会成功的道路
并非所有想法都能生存,自然选择在这里适用……实际上,AI项目多半失败。它们表面上看起来不错,但在实际采用时,这些试验系统无法提供有意义的结果,结果被丢弃。
据Forrester的调查显示,去年AI的采用停滞不前。2017年,接受调查的企业中51%使用某种形式的AI,而在2018年这个比例仅增加2%:采用率为53%。因此,现在Forrester称75%的早期AI项目不堪重负。Gartner给出了类似的预测:85%的AI项目不会为支持者带来成效。
初创界到处是死亡的AI公司,原因是它们因产品质量低而在市场上没有立足之处,或者其功能在现实世界中毫无用处。AI界一些最惨重的失败属于行业巨头。
失败的AI例子
以下是几个代表性的失败项目。幸好,这些公司有足够的资源进行投资,这些失败有助于将来的成功铺平道路。
- IBM的“Watson肿瘤解决方案”
(Watson for Oncology)投资6200万美元后被取消
Watson AI Health没有给医生留下深刻的印象。一些医生抱怨,它在癌症治疗方面给出错误的建议,可能导致严重甚至致命的后果。据报道,IBM在该项目上花费数年时间、却没有重大进步之后,对Watson Health进行了精简,解雇了该部门一半以上的员工。
- 自动驾驶汽车首次致人死亡
优步的自动驾驶汽车在亚利桑那州的道路上撞死了一名骑车的人。车上的多个传感器并没有发现前方的行人,驾驶员又没有完全注意路况,甚至都没有减速。自动驾驶计划此后被暂停,9个月后才恢复。在一次类似的事件中,一辆特斯拉自动驾驶汽车径直撞上佛罗里达州高速公路上的一辆牵引车挂车,未作任何避开的操作,驾驶员在事故中丧生。
- 亚马逊人力资源AI因性别偏见而被抛弃
据报道,亚马逊人力资源部门在2014年至2017年使用基于AI的招聘软件,以筛选简历、给出建议。然而软件被发现更偏向男性求职者,这反映了男性在科技行业占主导地位的现状。尽管投入了大量资金,该软件还是被抛弃了。聊天机器人和其他形式的对话式AI存在类似的性别和种族偏见。
- 翻译耳机Waverly Labs和Google Pixel Buds获差评
这些翻译耳机被誉为是《星际迷航》中的那种通用翻译器,用户发现机器翻译的准确性仍不足以与说另一种语言的人进行对话,它们在发布后遭到了大量的负面批评。
为何AI项目成功和失败。提示:环顾周围。
具有讽刺意味的是,AI方面做到出众的最大障碍是获取人力资本的难易程度。
在企业方面,没有足够的领导人来运用机器智能、识别使用场景、设定和管理期望以及可靠地执行AI项目。一些问题包括:
○不切实际的期望
人类方法和预测已发展了几十年,而AI只学习了几年,但高管们期望AI一开始就超越人类。
○采用方面的高准确度阈值
在允许人类失败的地方不允许AI失败。只有AI系统的质量超过接近人类的准确度阈值,AI系统才开始被广泛采用。机器翻译与人工翻译相比就是个典型的例子。人工翻译的平均编辑率为11%,而机器翻译的准确度有望达到100%。
○没有关注业务目标
AI项目常常先收集所有可用数据,然后寻找使用方式。问题在于,大多数数据中只有一小部分有价值。
○缺少高质量数据
所有先前的因素最终影响数据。AI模型的准确度和输出质量、胜过人类并满足业务目标的能力取决于数据集的大小和整洁度。项目启动时,通常有太多的一般数据来自公共数据源、来自互联网上的解析网站、来自公司保存的记录,但无法保证这批数据里面没有污染数据集的任何信息。自动化测试可以检测部分坏数据,但仍需要人来仔细检查结果,并向机器馈送训练数据,以调整机器、提高性能。
在生产方面,当今本地化方面的AI就是人力:通过标记、评估、收集和集成数据来训练引擎。这些任务需要项目和供应商管理能力,市场营销、支持和产品等部门的软件工程师和中级经理常常缺乏这些能力。成功常常取决于能否有效地管理数百人组成的团队,按时按预算地完成任务。
成功因素
1. 传达和设定期望的能力
虽然机器学习的支持者主要是工程师,但他们也需要是外交官、有说服力的推销员,与主管和客户一起建立切合实际的时间表和质量方面的期望。
2. 高度关注切合实际的目标和使用场景
AI项目应努力解决实际的业务问题。建立在现有数据上或试图创建市场可能导致寻找问题的解决方案:这种解决方案令人好奇,但商业上不可行。了解受众及使用场景是关键。此外,着眼早期价值的项目比雄心勃勃的长期计划有着更高的成功率。
3. 多语言数据质量和注重维护
永远没有足够的高质量数据,有太多的坏数据。为了达到85%至90%的准确度,需要人工和仔细检查。在整个项目期间致力于数据清理和维护。就像你处理翻译记忆库那样。
外包、外包、外包
国际业务团队知道如何外包——这就是本地化的本质。本地化中AI的未来是将人工任务外包给语言服务生态系统。
未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”