揭秘阿里机器翻译团队:拿下5项全球冠军,每天帮商家翻译7.5亿次

摘要: 跨境电商市场越来越大,商家们也遇到了新问题。以阿里巴巴国际站为例,七成买家以英语沟通,剩下三成的小语种,却难住了平台上近96%的卖家。 “翻译和本地化都做不好,说明你对海外市场根本不重视,还想怎么品牌出海?”一米八大高个的李兮芝,语速极快,说话从不绕弯。

跨境电商市场越来越大,商家们也遇到了新问题。以阿里巴巴国际站为例,七成买家以英语沟通,剩下三成的小语种,却难住了平台上近96%的卖家。

“翻译和本地化都做不好,说明你对海外市场根本不重视,还想怎么品牌出海?”一米八大高个的李兮芝,语速极快,说话从不绕弯。

李兮芝是阿里巴巴国际贸易事业部(ICBU)阿里语言服务总经理,对商家的痛点了如指掌。讲到最棘手的案例,他会立刻站起来,抄起一支笔,在会议室的白板上演示一番。

45271f601d5d654a1d645bd201e8fdd55a33fa8f

阿里巴巴国际站用户沟通语言现状

坐在李兮芝一旁的骆卫华,语速要慢许多。2014年1月,中科院计算所出身的骆卫华,加入了阿里,如今是阿里巴巴达摩院翻译平台负责人。

今年5月,在全球机器翻译领域影响最大、水平最高的WMT2018评测中,骆卫华带领的翻译技术团队一举拿下5个语言方向的冠军,成为比赛的最大赢家。

与谷歌、微软、百度等做不区分场景的通用翻译不同,阿里选择在电商场景的翻译上发力。目前,阿里机器翻译已支持21个语种的48个语言方向的翻译,日均使用量已达到7.5亿次。除了支持离线及文字翻译,还支持实时语音、图片以及视频翻译,应用于阿里巴巴国际站、速卖通、LAZADA、菜鸟、阿里云、钉钉、飞猪等40多个业务部门。

“首先在电商场景下,我们要把机器翻译做到最好。”骆卫华说,但在未来将不局限于电商翻译。

没有硝烟的“军备竞赛”

《圣经》旧约中,人类曾联合起来搭建通往天堂的高塔,上帝为了阻止这一计划,让人类说上不同的语言。没过多久,无法沟通的人类便四散而去。

回溯机器翻译的源头,不难发现,这是一场为了再造《圣经》中“通天塔”而展开的“军备竞赛”。

冷战时期,苏联和美国的科学家就曾在机器翻译上有过几番较量。当时,机器翻译领域的主角是懂得英俄双语的语言学家,他们试图为计算机编写出一套双语规则。“但问题是,规则和规则之间存在大量冲突,在实际应用中会出现大量异常情况。”

骆卫华说,很长一段时间,机器翻译都被局限在编写规则的泥淖中,直到上世纪90年代,才被IBM Watson研究中心提出的统计机器翻译所取代,程序员开始取代语言学家,站上了机器翻译领域的主舞台。

2014年,蒙特利尔大学计算机系博士后Kyunghyun Cho等人关于将人工智能底层模型“神经网络”应用于机器翻译的论文,又一次吹响了翻译技术革命的号角。这一年,各大互联网公司开始大举投入,诸多优秀的学者和学生陆续加入谷歌、亚马逊、脸谱和BAT。

在中科院学习和工作近12年的骆卫华,在“纠结一段时间后”,也决定跳出学术圈,选择加入阿里,去实现将技术真正落地的梦想。“以前在实验室的主要任务是发paper(论文),做课题,只有这个领域的人才会关心,但现在每天有几千万人在实际使用你的产品,这种感觉是完全不一样的。”

45e555cba175051a2db0f3a9032cc761a2943ad1

2014年,骆卫华加入阿里

不同于大多数在通用翻译领域厮杀的玩家,阿里机器翻译团队以核心电商场景为起点,为整个国际化业务提供本地化解决方案。

“项目很多,得排期。比如,2、3月做钉钉的项目,4、5月要做速卖通项目。”骆卫华说,除此之外,团队还会时不时会接到十万火急的需求。比如,去年双11之后,团队曾用两个星期,与菜鸟团队一起加班加点编写了一套报关自动翻译产品,“后来菜鸟评估说,整个报关成本下降了90%。”

难的不止是翻译

说到机器翻译,除了算法模型,大量的样本数据是非常重要的。这也恰恰是阿里的优势所在。

“举个例子,‘Photo Print’这个词在通用语境下会被翻成‘照片打印’,但你知道它在纺织面料行业里是什么意思吗?”李兮芝接着说,“这是‘热转印印花’工艺的一种,翻成照片打印就贻笑大方了。”

阿里本身沉淀了大量电商领域相关的数据,机器翻译团队进一步梳理出10亿级别的双语平行语料、亿级别的电商双语平行语料、千万级电商知识库,以及大规模行业多语言术语库。

然而,语言上的准确翻译只是第一道难关,更困难的是通过算法实现文化、法律、经济、宗教等层面的本地化落地。

一个案例让李兮芝印象深刻。“同样是10万,英美国家千位分隔符用逗号,标成‘100,000’;但法国、西班牙的千位分隔符是句号,逗号用来标小数点,10万在法国得标成‘100.000’,如果标成‘100,000’就表示是100了。”这类大额数字在阿里巴巴国际站经常出现,曾经出现过中国卖家因为没有将数字本地化,而被买家投诉的情况。

7b0dd9c867e52d3146c7abfcec6511a279a0f415

阿里巴巴ICBU语言服务总经理李兮芝

今年4月,主打男装的国内服饰品牌英爵伦,加入了阿里旗下的东南亚电商平台Lazada上的“淘宝精选”(Taobao Collection)计划。Lazada通过自动抓取天猫店的产品,帮助品牌拓展东南亚市场。“我们天猫店商品标题是全中文的,没想到Lazada能自动翻译成英文。”英爵伦跨境电商负责人刘晨芳说,“最重要的是,机器自动翻译的英文品牌名‘Enjeolon’,和我们真实的英文名分毫不差,太神奇了。”

7318bd9379cd3cc9eaab011ca72a194f619fe9d8

英爵伦发现,品牌名英文名翻得分毫不差

刘晨芳不知道的是,Lazada这套自动翻译系统也是由阿里巴巴机器智能翻译团队开发出来的。翻译系统还改写了标题,让产品描述看上去更加接地气。

“淘系商品标题没有固定格式,由N个热搜词组成,但不是一个完整的句子。要是直接翻译,海外消费者压根看不懂。”李兮芝说,这种没有上下文信息的标题翻译,不论对人还是对机器,都是极大的挑战。“我们曾经找来专业人工译员翻译标题,结果译员翻到一半不干了,根本看不懂。”

后来,团队通过融合多种自然语言处理和文本生成技术,攻下了商品标题改写的难题。像英爵伦这样的中国品牌,不用担心Lazada上的东南亚买家会因为看不懂标题,而放弃购买商品。

今年5月,阿里巴巴正式上线对话实时翻译功能,这也是全球电商领域的首个实时翻译AI产品。“无障碍的跨语言沟通明显增加了阿里巴巴国际站的用户粘性。我们期望卖家不再需要为了做某一个国家的生意而专门聘请会那国语言的专职人员。”李兮芝说。除了用户体验的提高,阿里机器翻译还为旗下国际电商平台带来了明显的流量、转化率和购买率增长。

0e1e4a1fdc2b5a7f9262370015f08c2172ee8e8e

阿里巴巴实时翻译系统

“机器翻译是块非常难啃的骨头。但如果我们真要实现全球买、全球卖,就必须要花精力去做。”李兮芝说。

解放,而非替代人工翻译 

今年5月23日,WMT2018国际机器翻译大赛,首次参赛的阿里巴巴达摩院机器智能-NLP翻译团队拿下5项冠军,包括英文-中文翻译、英文-俄罗斯语互译和英文-土耳其语互译项目。

a9d8884d1e7eefaef5da1493470b1d20982f1b14

阿里巴巴达摩院机器智能-NLP翻译团队

作为全球最具权威、已举办13次的机器翻译大赛,WMT(Workshop on Machine Translation)成为了各大科技公司和学术机构的竞技场。2018年的大赛竞争格外激烈,吸引了霍普金斯大学、爱丁堡大学、微软、阿里、腾讯、小牛翻译等几十个机器翻译团队参与。

“WMT大赛的文本主要是新闻题材,参赛团队要在截止日期内上传机器翻译的成果。”骆卫华说。竞争很激烈,整个行业提升也特别快,例如在竞争最激烈的英中翻译任务,去年最好的成绩在今年可能已经排不到前几名了。

“中英翻译还好,起码我们知道哪里翻得有问题。但像土耳其、俄罗斯语这样的小语种,我们完全看不懂,只能完全拼算法、拼模型。”骆卫华说,在小语种机器翻译领域,以前一直是由国外的公司与科研机构一直保持领先地位。“小语种的双语语料是很稀缺的,但阿里全球化的目标要求我们必须从技术层面做突破,用更少的数据,在专业领域上翻得更准确。”

谈到机器翻译和人工翻译的关系,骆卫华和李兮芝都赞同一个观点:阿里的机器翻译最终的目的,不是为了替代专业,而是为了解放专业的人工翻译。

随着机器翻译技术的不断突破,传统人工翻译正逐渐变为一个“搬砖”行业,充斥着大量重复低效的劳动。“1995年,翻译一篇1000字的中到英文本,译员的收入可达600元人民币。”李兮芝说,但在今天,同样字数的文本,甚至低到只有50元的收入。

低廉的人工翻译报酬,正在把专业译员推向价格更高的专业技术翻译领域。然而,这些领域的文本,由大量专业术语和范式行文构成。“人类不擅长记忆专业词汇,但机器擅长。”李兮芝说,人工翻译的长处在于“创造性的智慧”,以及对文化背景的深刻了解。“翻译讲究信达雅,机器目前最多能做到‘信’和‘达’,像文学翻译、口语俚语、本地化的惯用表达等等,还是需要人工翻译。”骆卫华说。

今年1月,阿里巴巴国际站向平台所有供应商,免费开放了一款AI实时翻译系统。商家输入的语音或文字,能自动转变为翻译好的目标文本。为了增强翻译的准确性,加入人工修正的干预功能。比如,商家如果有更地道的表达方式,可以进行翻译订正,以弥补神经网络翻译系统现阶段存在的问题。

下一步,阿里机器翻译在迭代优势电商场景的同时,还将向新的领域拓展,同时完善产品矩阵,支持文本、语音和图像等多模态翻译,并最终对外开放API。“我们希望把阿里巴巴全球化过程中的经验沉淀下来,最后打包输出,赋能给整个社会。让商业没有语言障碍,让天下没有难做的生意。”李兮芝说。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/521229.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IDC与浪潮联合发布2019数据及存储发展报告:中国迈入新数据时代元年

戳蓝字“CSDN云计算”关注我们哦!企业数字化转型进程不断加速,物理世界与虚拟世界正在融合。当两个世界不断以数据的形式互相映射和影响的时候,时代将从量变积累到质变。新数据时代元年已经到来。10月18日,在IDC中国数字化转型年度…

linux CentOS7最小化安装环境静默安装Oracle11GR2数据库(执行安装_07)

接上一篇:linux CentOS7最小化安装环境静默安装Oracle11GR2数据库(修改配置文件_06) 执行安装前的准备工作: 创建ORACLE实例前提,准备下面6项工作 序号说明链接①安装操作系统https://blog.csdn.net/weixin_40816738/…

e盾网络验证源码_Laravel [mews/captcha] 图片验证码

1 安装配置1.1 使用 composer 安装 [mews/captcha] 扩展composer require mews/captcha项目根目录 composer.json -> require 会新增一行(我的 laravel 版本是 5.6)"mews/captcha": "^3.0"1.2 config/app.php 添加相应代码providers>[ // ... …

开源工具Arena,数据科学家再也不用为Kubernetes犯难啦!

摘要: 为什么要用Kubernetes去难为数据科学家呢? 2018年7月,阿里云将深度学习工具Arena贡献给了开源社区,数据科学家无需学习底层IT资源使用,即可在云端运行深度学习,一分钟内启动深度学习任务&#xff0c…

mysql时间模糊查询_mysql中那些根据时间查询的sql语句

在我们使用mysql是免不了要根据时间去查询一些数据,这个时候一般有几种方式可以去查询。第一种数据库,如果有数据新建时间可以以这个时间为节点,通过当前时间条件去比较时间来查询到此段时间内的数据例如:这个是可传参数的SELECT …

专访阿里数据库备份专家 教你pick最有效的备份系统

摘要: 数据库备份是个老生常谈的话题,看似很简单,但在实际操作过程中,运维人员往往会遇到这样或那样的坑。那么,如今的数据库备份有哪些挑战?如何构建有效备份系统?有什么解决办法? …

linux CentOS7最小化安装环境静默安装Oracle11GR2数据库(静默创建实例_08)

接上一篇:linux CentOS7最小化安装环境静默安装Oracle11GR2数据库(执行安装_07) 创建ORACLE实例前提,准备下面7项工作 序号说明链接①安装操作系统https://blog.csdn.net/weixin_40816738/article/details/104454497②安装常用工…

当我们在聊 Serverless 时你应该知道这些 | CSDN博文精选

戳蓝字“CSDN云计算”关注我们哦!作者 | 杨泽强(竹涧)转自 | CSDN企业博客责编 | 阿秃说起当前最火的技术,除了最新的区块链、AI,还有一个不得不提的概念是 Serverless。Serverless 作为一种新型的互联网架…

androidbyte数组使用_android byte的用法

byte 为有符号数据,引用文章android byte的使用暴走邻家 2018-01-24 08:55:07 10333 收藏 4分类专栏: android Android基础 文章标签: android app java byte 函数版权今天,简单讲讲android里byte的使用。这个其实很简单&#xff…

Apache RocketMQ 正式开源分布式事务消息

摘要: 近日,Apache RocketMQ 社区正式发布4.3版本。此次发布不仅包括提升性能,减少内存使用等原有特性增强,还修复了部分社区提出的若干问题,更重要的是该版本开源了社区最为关心的分布式事务消息,而且实现…

如何使用阿里云ARMS诊断Java服务端报错问题

摘要: 这是ARMS团队推出的“网站常见问题1分钟定位系列篇”第二文。 我的网站为什么一错再错 网页报错,尤其是5XX错误是互联网应用最常见的问题之一。5XX错误通常发生于服务端。服务端是业务逻辑最复杂,也是整条网络请求链路中最容易出错、出…

.iml文件_jetbrains误删maven 项目.iml文件后的处理方法

jetbrains 打开maven项目, 出现如下提示这个时候打开 Terminal在提示符下输入:mvn idea:module 回车运行,就可以修复。Relationship between .iml file and pom.xml fileThe intelliJ idea doesnt understand the maven project model (POM.x…

亚马逊消费者业务宣布永久关闭 Oracle 数据库,去O新进展;华为发布最新5G全系列解决方案;苹果正研究新设备“智能戒指”……...

戳蓝字“CSDN云计算”关注我们哦!嗨,大家好,重磅君带来的【云重磅】特别栏目,如期而至,每周五第一时间为大家带来重磅新闻。把握技术风向标,了解行业应用与实践,就交给我重磅君吧!重…

vs未能找到程序集platform.winmd_PP体育直播大连人VS恒大:新老8冠王首尾对决竟有十大看点...

北京时间8月25日,中超大连赛区的第7轮较量,广州恒大迎战大连人,恒大取胜即可继续位列榜首,同时获得半程冠军。而对于前6轮不胜的大连人来说,已经被逼上了绝境。虽然大连人晋级争冠组的前景极为渺茫,但一胜难…

Sentinel如何通过限流实现服务的高可用性

摘要: 在复杂的生产环境下可能部署着成千上万的服务实例,当流量持续不断地涌入,服务之间相互调用频率陡增时,会产生系统负载过高、网络延迟等一系列问题,从而导致某些服务不可用。如果不进行相应的流量控制&#xff0c…

京信通信:数据智能为生产调试“增效瘦身”

摘要: “数据驱动测试优化,突破自动测试边界,赋能智慧测试新模式。”——京信智能制造副总经理葛鑫 “进入车间,映入眼帘的是一条长约20 米的 O 型生产线,产线前三名工人和几个机器人正协同工作,将各种元器…

c++代码好玩_一行Python代码能干嘛?快来看看吧!有表白利器哦

python有很多优雅有趣的代码写法,同时还很简短,以至于当我刚开始接触这个编程语言的时候,就爱不释手。而前几天的编程语言榜单中python也超越了java成为了第一,挺替python开心的。python到底有多有趣呢?一行代码告诉你…

探秘HDFS —— 发展历史、核心概念、架构、工作机制 (上)| 博文精选

戳蓝字“CSDN云计算”关注我们哦!作者 | Mr-Bruce转自 | CSDN博客责编 | 阿秃几周前,笔者做了一个与HDFS有关的技术分享,以知识普及为目的,主要分享了Hadoop发展历史、HDFS核心概念、整体架构、工作机制等内容。本文大…

linux CentOS7最小化安装环境静默安装Oracle11GR2数据库(配置数据库监听_09)

修改dbca.rsp响应文件中的重要参数 su - oracle cd response/ vim dbca.rsp本次安装过程中设置了下列参数:(注意下面参数视情况而定,不要照抄,原文件都有说明的) RESPONSEFILE_VERSION "11.2.0" #不能更改 OPERATION_TYPE "…

如何量化考核技术人的 KPI?

摘要: 为什么需要技术KPI? 在业务技术团队,有一个不好的趋势就是团队越来越业务,越来越没有技术味道。每个人都在谈业务,技术大会上在谈业务,周会上在聊业务,周报里写的是业务项目...... 唯独少…