日均调用量超13亿次,阿里达摩院研发全球首个实时翻译直播

简介: 近几年来,直播电商到处开花,但绝大多数都是国内的中文直播。如果想买外国电商主播推荐的商品,语言不通怎么办?这一难题已被阿里巴巴(下称 “阿里”)攻克,阿里速卖通是面向全球海外消费者设立的电商平台,它和淘宝一样,也面向所有终端消费者,但区别是速卖通是面向全球 200 多个国家和地区的电商平台。

2020阿里巴巴双11技术专题精彩内容持续更新中戳我前往
图片无法显

近几年来,直播电商到处开花,但绝大多数都是国内的中文直播。如果想买外国电商主播推荐的商品,语言不通怎么办?

这一难题已被阿里巴巴(下称 “阿里”)攻克,阿里速卖通是面向全球海外消费者设立的电商平台,它和淘宝一样,也面向所有终端消费者,但区别是速卖通是面向全球 200 多个国家和地区的电商平台。

直播电商动辄 “几亿元带货” 的高歌猛进,也让跨境电商卖家对这一模式心动不已。然而,由于不同国家和地区的语言不同、文化不同、消费习惯也不同,所以要想在速卖通做直播,语言、物流、支付和技术都是非常复杂的系统,其中语言是最急需攻克的难题。

而在近日,阿里达摩院联合速卖通推出 AI 实时翻译直播,可同时进行中文到英、俄、西三种语向的翻译。据悉,这是全球首个启用 AI 实时翻译的电商直播,中国商家只需用中文一键开播,就能同时覆盖全球英语、西班牙语、俄语区的逾十亿人口。

 

20201116205519.jpg

“被迫” 研发的翻译引擎

两年前,速卖通开始探索直播,然而不同于淘宝直播的是,高峰期涌到直播间的用户来自 19 个国家,且说着不同的语言。当时,没有多元实时翻译,要么全部用英文直播,要么面向某一语言地区的用户专门用某种语言直播,比如法语或西班牙语。

据速卖通官方直播负责人陆嬿介绍,大部分实力雄厚的商家会请外国主播,而中小商家要么放弃,要么无声直播或用中式英语(Chinglish)尬播。数据显示,速卖通上近九成商家来自中国,而 82% 的中国商家因为语言困难而放弃跨境直播。

相比淘宝直播,速卖通直播更像一个婴儿,她需要强大的 “营养” 才能快速成长。这个营养就是能实现多译多功能的实时翻译工具。

20201116205534.jpg

在研发多译多之前,速卖通曾试用过现成的翻译引擎,但对直播间的翻译输出脚本来说,即便是质量最好的翻译引擎,其翻译结果也不合格。当时,还有俄罗斯和西班牙用户受邀参与评测,他们的评价也是完全听不懂。

速卖通研究后发现,这些翻译引擎之所以无法使用海外直播,其一是常规同传有专业的收音设备来保障翻译准确度。但是电商直播的环境很嘈杂,很多商家直接在档口就开始播,这样就难以保证较好的收音。

其二常规的同传词库是固定的,翻译工具得到有效训练后就能保证准确度。但是电商直播商品数量过亿,且每天都在变,根本没有办法让翻译工具快速学习。而且主播每个人都来自不同地方,有的说话还带有方言。并且有些主播语速很快,这都会极大地增加翻译难度。以上原因使得速卖通不得不自研引擎。

没有训练集,商家自己 “造”

随后,速卖通耗时 7 个月开发出中译英引擎,并于 2020 年 5 月份上线。上线后商家开播率已有 65%,今年 “828 大促” 期间线上 90% 的直播间都使用了该功能。

但仍存在不足,即使中译英能力做到极限,直播间里只有 30% 的用户能听得懂主播说的话,因为 AE 是一个跨全球平台,直播间里各种用户都有,英语用户最高比例是 30%,因此亟需推出中译多的功能。

两个月后,中译多功能完成,上线之后用户体验得到较高提升,部分店铺销量随之增加 3 倍。当时,很多商家直播间的购买转化,比达人直播的转化率还高。一些直播达人和海外商家发现后,也要求使用中译多功能,可是很多商家不说中文,为此速卖通增加了多译多功能,并于今年 7 月上线。

研发过程中也有很多困难。第一是跨团队协作,研发团队分布在美国、中国、新加坡三个国家。另外,60 多位研发人员几乎从未见过面,如何让他们快速建立信任、并快速推下去是一大难题。

第二是训练集的收集。跨境直播业务在全球都很少见,市面上没有现存训练集可以直接复用。好在阿里本身拥有较强的商家生态,很多商家都积极帮忙收集训练集。

第三是并发承载点。如果只做一场翻译,根本不会有压力。但是直播每天有上千场,翻译几国语言,这就需要几千个翻译,因此服务器的并发压力非常大。后来,阿里云对此做了改造,使得服务器得以承载得住。

第四个难题是自动化展示。多译多功能可自动识别用户种类,并展示出相应的语言,比如它能识别你是中国人,从而用中文展示主播说的话。之前大家看到同传效果都是在 PC 端上面,但是移动端很复杂,为此研发人员在其中做了不少自适应的工作。

20201116205545.jpg

自研更高效算法模型,可 “听懂” 主播口音

达摩院研发的统一多语言多领域融合模型,可把上百个语言,以及每个语言的多个领域压缩到一个神经网络模型中进行翻译,且翻译质量不变。据达摩院骆卫华介绍,达摩院 AI 翻译技术已创下多项业界第一,日均调用量超过 13 亿次,累计 3000 亿单词,可提供 214 种语言的高质量翻译。

据速卖通直播实时翻译产品负责人赵文倩介绍,速卖通上有上亿件商品、数百亿个商品相关的专业名词,对直播实时翻译技术的要求极高,需要克服口音不标准、直播环境复杂、商品专业名词多、新品新词更迭快等问题。

主要负责该难题的是阿里达摩院自然语言处理实验室的研究员樊楷,他表示为解决 AI 听不清、听不懂的问题,达摩院研发出更高效的语音算法模型,它不仅能在嘈杂环境中 “听清” 直播内容,还能 “听懂” 主播的口音。通过将多领域的知识融入翻译模型,该算法模型还能举一反三,无需重新训练便能快速学习不同场景里不断更迭的专业名词。

现在,速卖通平台支持 18 种语言,可以保证设计出来的频道和商品定位,能够符合当地文化,这种 “入乡随俗” 主要体现在以下三方面。

心有灵犀。速卖通上有大量多元的商品,除了给它们做分类,还得容易被搜到。因此平台得根据用户输入的词,马上就能获悉他的搜索目的。在多语言混合下,这种挑战会更大。以 “Case” 为例,它具有箱子和案子的双重意思,用户输入该词语时,到底想买什么,就需要结合具体情景。此外,同样的词在不同语言里的意思也不同,例如 “Basket” 在英语里有 “篮子” 的意思,在法语里还有 “球鞋” 的意思。

可面对数以亿计的商品搜索,全程由人工解决会很慢。为此,速卖通采用人工智能来解决,当然人工智能的初步训练是由算法工程师来解决。训练结束后,速卖通最终可做到无论用户输入什么,都能根据他前后搜索的词语,来知晓其购买意图。

了如指掌。速卖通希望用户能对商品了如指掌,因此商品标题需要承载很多内容。比如,这个商品是什么?怎么找到?为什么买?但是一些商家的标题,有的没有标点符号,标题手法上也没有特别规则。这一问题也可被人工智能解决,它会给标题加上标点符号,并可整理成当地用户熟悉的表达方式。

深信不疑。速卖通是跨境平台,很多商家位于海外,商品需要飘洋过海才能到用户手中。所以,用户对平台信用、商家信用和商品质量都有很高要求。而购买前想知道商品到底好不好?就只能通过用户评价去了解。但是用户评价非常多,涉及的语言种类也非常多。另外,用户会用各种不规范的语言来评价,比如 “Very gooooood” 这样的短语,有的评价还会用到表情符号。而采用 “多到多” 翻译引擎,上述问题也可得到解决。

由于疫情原因,2020 年很多此前从未涉足直播的商家,如中国山区的果农也开始直播卖货。有了速卖通,无论是江西赣南的脐橙、还是河北枣强的貂皮都可以走向全球各地。同样,中国用户也可以买到此前只有靠代购才能买到的产品。科技惠及的从来不只是某一个国家的用户,而是全世界。

 

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/514703.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

双十一消费近万亿!1亿人见证数字物流,“尾款人”收货更快了?购物狂欢七大趋势浮现

来源: 券商中国 作者: 段久惠 国人买买买,双十一期间交易额首次进入万亿元时代。 今年双十一分为两个阶段,11月初就开始预售,一方面减缓了商家发货的压力,另一方面在营销上商家有了两波密集营销的机会以带…

数据爆炸时代,浪潮K1 Power释放新算能

IDC 预测,到 2020 年至 2023 年,亚太地区 GDP 的 65% 以上将实现数字化,数字化转型支出将达到 1.2 万亿美元。其中到 2025 年,超过 25% 的 500 强企业将成为软件开发公司。 数字化进程的加快带来的科技革命和产业变革…

AI云原生浅谈:好未来AI中台实践

简介: 2020年云栖大会上,好未来AI中台负责人刘东东,分享了他对AI云原生的理解与好未来的AI中台实践,本文为演讲内容整理。 AI时代的到来,给企业的底层IT资源的丰富与敏捷提出了更大的挑战,利用阿里云稳定、…

直击“上云”痛点的 MSP 新生意,万博智云发布云原生迁移工具 HyperMotion 3.0

作者 | 宋慧 出品 | CSDN云计算 头图 | 付费下载于IC photo CSDN 在 4 月对德勤《2021 年技术趋势报告》的报道时,德勤分析师曾提到,在中国近 20 年的 IT 历程中,经历 ERP 和 toC 浪潮之后的中国企业,对云计算的认识却停留在降低…

我看技术人的成长路径

简介: 有一句诗词说:宠辱不惊,看庭前花开花落;去留无意,望天上云卷云舒。其实就是讲内心修炼到了一种心境平和,淡泊自然的境界。 作者 | 儒枭 为什么要成长 成长是为了在职场升值,提升职场竞争…

KubeVela 正式开源:一个高可扩展的云原生应用平台与核心引擎

美国西部时间 2020 年 11 月 18 日,在云原生技术“最高盛宴”的 KubeCon 北美峰会 2020 上,CNCF 应用交付领域小组(CNCF SIG App Delivery) 与 Open Application Model (OAM) 社区,以及来自阿里云、微软云的 OAM 项目维护者们在演…

ESL:我们如何使用首云混合云产品实现提效降本

背景ESL Play是世界上最大也是历史悠久的电子竞技独立联盟,成立于1997年。ESL Play负责组织和举办电子竞技赛事,并提供在线直播。在所有电子竞技平台中,收看时间长期位居行业第一。其举办赛事覆盖PS、PC、移动端等多个平台。ESL Asia是ESL Pl…

鹰角网络全球海量数据,一键轻松统一存储与处理

简介: 对于鹰角网络遇到的数据激增以及数据统一收治方面的问题,阿里云对象存储 OSS 为其提供了统一的数据存储 池,方便鹰角网络将全球收集到的海量不同数据进行统一存储,同时阿里云对象存储 OSS 可无缝对接 云原生数据湖 分析 DLA…

直击“上云”痛点的 MSP 新生意

作者 | 宋 慧出品 | CSDN 云计算头图 | 付费下载于 IC photoCSDN 在 4 月对德勤《2021 年技术趋势报告》的报道时,德勤分析师曾提到,在中国近 20 年的 IT 历程中,经历 ERP 和 toC 浪潮之后的中国企业,对云计算的认识却停留在降低 …

申通完美支撑“双11”——亿级包裹背后的云基础设施

简介: 亿级包裹洪峰过境,千万级订单毫秒级响应,系统稳如泰山。今年双11,申通的系统前所未有的流畅与平稳。 今年双11,申通的系统前所未有的流畅与平稳 “双11全站跑在阿里云上,亿级包裹洪峰过境&#xff0…

java map是大括号_Java8如何基于flatMap处理异常函数

Java8的flatMap函数,作用是:如果有值,为其执行mapping函数返回Optional类型返回值,否则返回空Optional。见到的映射函数往往都只有一句话,连大括号都不需要加的,如下:String personValue Optio…

AI 赛道“新选手”锐捷发布新一代 AI SaaS 云平台,支撑百万级零售货柜

编辑 | 宋慧 出品 | CSDN 云计算 头图 | 付费下载于 IC photo 近几年,传统零售模式经历了几轮深层次变革,2016 年是新零售的元年,2017 年无人零售在国内又刮起了一阵大风,从传统零售到新零售再到无人零售等概念的革新&#xff0c…

2019 年 CNCF 中国云原生调查报告

简介: 在 CNCF,为更好地了解开源和云原生技术的使用,我们定期调查社区。这是第三次中国云原生调查,以中文进行,以便更深入地了解中国云原生技术采用的步伐及如何在庞大且不断发展的社区中赋能开发者并作出变革。本报告…

快手基于 Apache Flink 的优化实践

本次由快手刘建刚老师分享,内容主要分为三部分。首先介绍流式计算的基本概念, 然后介绍 Flink 的关键技术,最后讲讲 Flink 在快手生产实践中的一些应用,包括实时指标计算和快速 failover。 一、流式计算的介绍 流式计算主要针对 u…

探索交通治理新思路,广州黄埔智能交通治“堵”

路口车辆平均延误下降20%、主干道平均行程时间下降25%、有轨电车每趟行程时间节省约28%……随着政府科学管理与人工智能技术的结合,广州黄埔越来越多交通路口正在逐渐AI化,市民出行效率得以大幅提升。在共建共治共享理念指导下,广州黄埔正在拓…

Flink 双流 Join 的3种操作示例

在数据库中的静态表上做 OLAP 分析时,两表 join 是非常常见的操作。同理,在流式处理作业中,有时也需要在两条流上做 join 以获得更丰富的信息。Flink DataStream API 为用户提供了3个算子来实现双流 join,分别是: join…

云原生趋势下的迁移与容灾思考

作者 | 孙琦 导读:下一个云原生颠覆的领域会不会是在传统的容灾领域呢?在云原生的趋势下,如何构建应用系统的迁移与容灾方案? 趋势 1. 云原生发展趋势 云原生(Cloud Native)是最近几年非常火爆的话题&…

深度盘点Python11个主流框架:Pandas、Django、Matplotlib、Numpy、PyTorch......

六月份TIOBE编程语言排行榜,位居第二名的Python与第一名C语言之间的差距正在逐渐缩小。Python如此受欢迎一方面得益于它崇尚简洁的编程哲学,另一方面是因为强大的第三方库生态。要说杀手级的库,很难排出个先后顺序,因为python的明…

从基础设施到云原生应用,全方位解读阿里云原生新锐开源项目

2020 年 11 月 19 日,由 InfoQ 主办的“2020 中国技术力量年度榜单盛典”隆重召开,并正式揭晓了“开源杰出贡献人物”、“开源新锐项目”和“云原生行业落地典范”等重大奖项。在此前的入围赛中,仅“开源新锐项目”单项,阿里云原生…

揭秘双11丝滑般剁手之路背后的网络监控技术

简介: 本篇将重点介绍Hologres在阿里巴巴网络监控部门成功替换Druid的最佳实践,并助力双11实时网络监控大盘毫秒级响应。 概要:刚刚结束的2020天猫双11中,MaxCompute交互式分析(下称Hologres)实时计算Flin…