黑科技揭秘:面对海量的文本翻译任务,阿里翻译团队是如何解决的

摘要: 对国际化企业来说语言问题是亟待突破的重要关口。面对海量的文本翻译任务,昂贵低效的人工翻译显然不能满足需求,利用计算机自动进行文本翻译的机器翻译才是解决这个问题的关键。阿里翻译团队在机器翻译领域做了大量技术储备,并针对我们所处的电子商务领域进行算法优化,进而打造阿里巴巴自己的机器翻译平台。

对国际化企业来说语言问题是亟待突破的重要关口。面对海量的文本翻译任务,昂贵低效的人工翻译显然不能满足需求,利用计算机自动进行文本翻译的机器翻译才是解决这个问题的关键。阿里翻译团队在机器翻译领域做了大量技术储备,并针对我们所处的电子商务领域进行算法优化,进而打造阿里巴巴自己的机器翻译平台。

目前阿里翻译API已经正式上线阿里云平台,让所有的阿里云用户可以申请使用阿里翻译的最新技术成果啦,今天就让我们一起进入机翻黑科技时间-解密阿里翻译。

1、阿里翻译支持的业务场景

阿里翻译积极助力集团国际化、全球化业务,不仅在电商业务场景有着扎实的积累和优质的服务能力,同时也在不断拓展创新业务场景,借助AI技术赋能产品和服务。
目前已为集团内十几条业务线提供机器翻译和本地化支持,覆盖了Alibaba.com 、 AliExpress 、 Lazada 、钉钉、阿里云、优酷、支付宝、菜鸟、天猫精灵、高德、飞猪等众多产品。
image001

1.1跨境电商解决方案

阿里机器翻译深入剖析“网站/APP本地化”、“引流拉新”、“到站搜索”、“用户转化”、“支付物流”、“留存复购”等全链路环节,提供多类的翻译和语言服务,积极提升业务价值。
image002

以下是部分链路环节介绍:
1.1.1搜索翻译

跨境电商中目前搜索引擎主要基于英文做索引,需要将本地用户输入的搜索词进行语种识别然后再翻译成英文,通过英文进行索引匹配,返回搜索结果,这是保障多语言流量转化率的关键环节,直接影响多语言电商GMV。
除跨语言搜索翻译外,目前阿里翻译在搜索自动化上支持完整的人工解决方案,能够针对电商平台高流量top search query快速提供人工语种识别&翻译结果,干预生效,同时挖掘搜索业务低转化的badcase search query并快速人工修正翻译结果的能力,快速提升转化指标。

image003

1.1.2商品翻译

跨境电商中需要对全站商品信息进行多语言化,包括商品标题、商品详情、商品评论等内容进行翻译。其中商品标题是用户获取商品信息的重要途径,在商品标题翻译场景上,通过对源语言是中文或者英文的标题进行NER识别,并根据不同业务方的业务规则对识别后的标题根据成分进行重新改写生成,改写后再翻译成目标语种。对商品的购买转换率有非常重要的影响。
商品详情是用户阅读商品信息的主要内容,包括商品属性、商品描述等信息,商品属性是商品的关键信息,机器翻译系统会通过翻译记忆将关键信息进行高质量存储提高翻译准确率,这部分内容能够帮助用户更好的了解商品各种规格材质,有效帮助用户进行购买决策。

由于网站买家来自全球各地,所以用户对商品的评价信息也是来自多国多语言,网站提供选项将多语言评论信息勾选统一翻译成英文的功能,帮助买家更好了解其他买家对商品的评价反馈信息。

image004
image005

1.1.3沟通翻译:
网站买卖家都是来自世界各地,所以对商品的基本信息,售前咨询,售后服务都需要进行基本的语言沟通,这是翻译最基本的应用场景,通过提供实时机器翻译同时能够对翻译结果进行后编辑,提升翻译后译文的质量。可以帮助电商网站大大提升购买转化和售后投诉等等问题。
image006

1.2网站国际化解决方案

阿里翻译目前服务集团内数十个业务方的产品国际化及本地化需求,支持数十种语言的人工精翻,实现网站本地化的标准化、自动化、中台化。
image007

1.3 人机结合翻译解决方案
目前现有机器翻译质量还不完美的前提下,对于一些对质量要求极高的内容通过适当加入人工翻译的力量可以快速达成业务目标,目前阿里翻译拥有上百家语言供应商和数十万个人译者的庞大翻译资源,可以针对重点商品进行高效快速的低成本人工翻译,对快速启动新业务起到了不可或缺的作用。
image008

1.4创新服务场景解决方案

阿里翻译沉淀了优质的跨境语料数据库,充分利用先进的机器翻译算法技术和海量的数据资源,深度打磨机器翻译质量和产品体验,并积极拓展机器翻译业务的产品形态,将各项机器翻译技术产品化,如语音翻译、会场同传、实时沟通等新产品和服务形态。
阿里巴巴实时语音翻译,于18年初随阿里AI军团一同出征美国CES(国际消费电子展),在拉斯维加斯精彩亮相,成功吸引了国内外众多媒体和观众的目光。
image009

2、阿里机器翻译技术体系的特点

在线上快速发展以及随着集团开始全面国际化的背景下,阿里机器翻译平台经过多年的打磨逐渐形成自己的体系。

2.1高性能高并发服务能力

当前在线机器翻译系统提供SMT和NMT两种翻译模型,近两年来由于硬件计算能力的大幅提升和深度机器学习的广泛使用,在翻译质量上NMT翻译质量已经远超传统的SMT模型,不过NMT在计算上的复杂使得NMT在速度上也远慢于SMT。NMT解码速度的提升是系统提供高吞吐,低延迟服务的关键。

2.1.1 分布式并行翻译

当前机翻平台承接的业务相当大的一部分翻译需求为大本文和网页,将这些请求按照对应的格式进行结构化的解析,然后通过分句模型把篇章级的请求分隔为句子级别,然后再分布式批量调用解码服务,这样不仅能大幅提高分布式缓存的命中率,环节性能压力同时也能大幅降低长文本的翻译延迟。

2.1.2 Inference优化

今年NMT已经成了翻译行业的一个标配,随着这种技术的普及也给系统性能带来了新的挑战。这一年多基于GPU的NMT优化极大的提高了系统的解码速度,对系统的解码速度有数倍的提升。

2.1.3 SMT和NMT混合解码

根据实际业务场景,我们发现在处理商品页的时候会出现大量短句,而且这些短句的NMT翻译结果还不如SMT的翻译结果,所以在调用decoder前通过一个策略模块来决策调用SMT或者NMT,从而减少NMT的吞吐量,极大的减少了GPU资源的消耗同时也提升了翻译质量。

2.2 服务全球化以及高可用的保障

2.2.1 全球多机房部署

阿里集团的涉及到的多语言翻译业务需求遍布全球,为了更好的支持不同地域的翻译需求同时能尽量减小由于地域带来的访问延迟,翻译平台实现了全球中国、俄罗斯、美国、新加坡多机房部署。 不仅实现了单地域的多机房容灾同时还支持跨地域全球容灾。

2.2.2 多场景差异化支持

阿里翻译接入的场景比较多情况也比较复杂,不同的应用场景对系统的要求也不尽相同,所以针对不同的应用场景实现了同步和异步两套处理机制,架构上实现两种不同的对外接口,但是机翻引擎保持同一套代码同一套服务,

同步:
接收到请求后实时的调用后端引擎,能够做到实时返回,用于对rt要求高的场景,另外通过多级缓存进一步的提高吞吐量和降低rt。

异步:
大文本商品翻译和离线翻译场景。通过metaq消息队列实现异步化,通过不同的消息队列来对应用设置不同的优先级,使用信号量来控制不同队列消费的线程数,动态的解决翻译热点时消息堆积问题。

2.3 Transformer 新型神经网络结构

阿里机器翻译基于业界最新的Transformer结构进行了网络结构的改进和对词语位置信息的充分利用,全面改进了机器翻译的性能。
image010

2.4 多模态服务能力

现阶段的机器翻译已不仅仅局限于文字到文字的翻译, 多模态的翻译已成为发展趋势。将多模态的信息如语音、图像、类目等通过神经网络进行融合,并利用Attention机制将信息加以聚焦,可以获得良好的效果。阿里翻译实时语音翻译demo在云栖大会、CES展会上都有亮眼的表现。

3、阿里云机器翻译API接入流程

介绍了技术能力和如此广阔的应用场景,接下来详细介绍下我们到底应该如何接入使用?

1、打开阿里云主页(https://www.aliyun.com),在导航栏选择产品-人工智能-机器翻译,进入自然语言处理页面选择开通服务
image011

2、勾选阅读并同意协议,单击立即开通
image012

3、进入自然语言处理控制台,选择购买资源包
image013

4、购买对应的资源包,购买量越大单价越便宜。
image014

5、购买完成后就可以进行调用了。可在API调试界面进行调试
image015

6、机器翻译调用说明文档
image016

7、代码调用示例
image017

8、代码调用失败示例,查看错误信息
image018

4、未来展望
为了更好地迎接国际化带来的挑战, 阿里翻译团队在未来还有着很大的想象空间,在翻译模型上会向“统一化,多任务化,多模态化”方向发展,产品形态上除了目前基于文本的翻译外,会扩展跟多模态的翻译产品,例如语音翻译、图像翻译等领域,同时还是针对具体应用场景例如搜索、实时沟通、旅游推出相关接口服务,在服务部署上也会针对客户需求推出定制化私有化部署的能力,助力企业解决国际化过程中的语言问题。

了解更多阿里云AI产品请戳:http://click.aliyun.com/m/1000006898/

原文链接

本文为云栖社区原创内容,未经允许不得转载

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/521442.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(需求实战_进阶_03)SSM集成RabbitMQ 路由模式关键代码讲解、开发、测试

接上一篇:(企业内部需求实战_进阶_02)SSM集成RabbitMQ 关键代码讲解、开发、测试 https://gblfy.blog.csdn.net/article/details/104214033 上一篇给大家介绍了在RabbitMQ 的管控台中,将队列绑定到指定的交换机上;这片…

在计算机中dos代表什么意思,Boot是什么意思

Boot是什么意思如果你去问一个学计算机的人,“启动”是计算机中的那个单词?回答一定是Boot。可是,Boot原来的意思是靴子,“启动”与靴子有什么关系呢?原来,这里的Boot是bootstrap(鞋带)的缩写,它来自一句谚语&#x…

你知道哪些情况下不该使用深度学习吗?

深度学习不适用于什么样的任务?依我之见,以下这些主要场景的深度学习弊大于利。01低成本或者低承诺问题深网是非常灵活的模型,有着许多架构和节点类型,优化器和正则化策略。根据应用,你的模型可能会有卷基层&#xff0…

秒后面的单位是什么_单位与国际单位制是如何由来的?

2013年国庆期的一则网络消息说,11万人看升旗留下了5吨垃圾。有人认为这是一则假消息,因为5吨=5000千克,110000500022千克/人,而每人携带22千克(44斤)的垃圾是不可能的。以前还看过一个说法&…

(需求实战_进阶_04)SSM集成RabbitMQ 通配符模式 关键代码讲解、开发、测试

背景: 为了减轻服务器的压力,现在原有项目的基础上集成消息队列来异步处理消息! 此项目是企业真实需求,项目的代码属于线上生产代码,直接用于生产即可! 此项目采用MQ发送消息模式为:通配符模式,如果对Rabbi…

halo多人正在连接服务器,在线人数过低 《光晕2》PC版多人服务器下月关闭

这也许是一个让粉丝略伤感的消息,《光晕2(Halo2)》PC多人游戏服务器将在下个月永久关闭。343 Industries注意到服务器的峰值在线人数一直仅有20人,因此做出了关闭服务器的决定。343 Industries在Halo Waypoint中说道:“我们很遗憾地宣布&…

纯Python实现鸢尾属植物数据集神经网络模型

摘要: 本文以Python代码完成整个鸾尾花图像分类任务,没有调用任何的数据包,适合新手阅读理解,并动手实践体验下机器学习方法的大致流程。 尝试使用过各大公司推出的植物识别APP吗?比如微软识花、花伴侣等这些APP。当你…

【明人不说暗话】我就只讲进程与线程

戳蓝字“CSDN云计算”关注我们哦!作者 | 阮一峰责编 | 阿秃进程(process)和线程(thread)是操作系统的基本概念,但是它们比较抽象,不容易掌握。最近,我读到一篇材料,发现有…

(需求实战_进阶_05)SSM集成RabbitMQ 通配符模式 关键代码讲解、开发、测试

接上一篇: 文章目录一、RabbitMQ 配置文件1. RabbitMQ 生产者配置文件更新二、启动项目2.1. 启动项目2.2. 清空控制台三、管控台总览3.1. 登录管控台3.2. 交换机中查看绑定队列总览四、验证测试4.4. 生产者①请求4.5. 生产者②请求五、启动RabbitMQ5.1. 进入sbin目录…

两台邮件服务器共用一个公网地址,两个不同域邮件服务器的互通

两个不同域的邮件服务的互通如图,有两个不同域的邮件服务器(postfix)通过一个DNS服务器实现互通。首先说明一下IP分配情况服务器1qq.cometh0(VMnet2): ip:192.168.2.2 netmask:255.255.255.0 gw 192.168.2.1 hostname:mail.qq.com服务器2(qq.neteht0VMne…

希捷银河声音大_【推仔说新闻】那款硬盘它终于来了 希捷推出首款双磁臂硬盘...

经常关注科技新闻的朋友们应该都知道,现在机械硬盘领域可以说是被固态硬盘冲击的不清,而对于我们广大用户们来说,HDD这一个储存介质就被我们更多的用来充当仓库盘使用,毕竟现在的固态已经下探到白菜级别的价格了。但是对于那些HDD…

(需求实战_进阶_06)SSM集成RabbitMQ 订阅模式 关键代码讲解、开发、测试

背景: 为了减轻服务器的压力,现在原有项目的基础上集成消息队列来异步处理消息! 此项目是企业真实需求,项目的代码属于线上生产代码,直接用于生产即可! 此项目采用MQ发送消息模式为:订阅模式,如果对RabbitM…

【目瞪口呆】通信机房内部长这样

戳蓝字“CSDN云计算”关注我们哦!作者 | 小枣君责编 | 刘晶晶大家好,我是小枣君。一直以来,我都在努力给大家做通信知识科普,也写了很多有趣的文章。不过,文章再有趣也只是文字,不是实物。现实生活中&#…

NLP的ImageNet时代已经到来

摘要: NLP领域即将巨变,你准备好了吗? 自然语言处理(NLP)领域正在发生变化。 作为NLP的核心表现技术——词向量,其统治地位正在被诸多新技术挑战,如:ELMo,ULMFiT及Open…

mysql字段分隔符拆分_面试题Mysql数据库优化之垂直分表

在日常的开发工作中,除了JAVA相关的技术,打交道最多的就是Mysql数据库,当数据积累到一定程度,比如500W时就会难免出现一些慢sql,对数据库的优化方式有很多,比如通过增加合理的索引,今天我们来说…

python print用法不换行_python3让print输出不换行的方法

python 3.x版本print输出不换行的格式如下: print(x, end"") 其中,end"" 可使输出不换行,不能省略。 举例:输出结果:内容扩展: python3.x中如何实现print不换行 大家应该知道python中p…

使用Numpy和Opencv完成图像的基本数据分析(Part II)

摘要: 使用Numpy和Opencv完成图像的基本数据分析后续部分,主要包含逻辑运算符操作、掩膜以及卫星图像数据分析等操作 在上一节中,主要是介绍了图像的基本知识以及OpenCV的基本操作,具体内容参见“使用Numpy和Opencv完成基本图像的…

(需求实战_进阶_07)SSM集成RabbitMQ 订阅模式 关键代码讲解、开发、测试

接上一篇:(企业内部需求实战_进阶_06)SSM集成RabbitMQ 订阅模式 关键代码讲解、开发、测试 https://gblfy.blog.csdn.net/article/details/104219096 此项目采用MQ发送消息模式为:订阅模式,如果对RabbitMQ不熟悉,请学习…

分布式事务方案这么多,到底应该如何选型?

戳蓝字“CSDN云计算”关注我们哦!作者 | 温卫斌责编 | 刘晶晶源自 | dbaplus社群作者介绍温卫斌,就职于中国民生银行信息科技部,目前负责分布式技术平台设计与研发,主要关注分布式数据相关领域。微服务兴起的这几年涌现出不少分布…

造大专计算机学历,广昌县职业技术学校计算机应用专业助您 掌握一技之长获大专学历...

——专题宣传报道之四:计算机应用专业计算机应用专业一直是广昌县职业技术学校开设的特色专业。该专业由一批经验丰富、专业优秀的教师任教,主要学习计算机操作、组装、网络应用、影视后期制作、平面设计、文档管理等理论知识和实训课程。特色一&#xf…