腾讯发布人工智能辅助翻译,致敬人工翻译

640?wx_fmt=jpeg

来源:腾讯AI实验室


11月13日,深圳 - 腾讯AI Lab今日发布了一款AI辅助翻译产品 - “腾讯辅助翻译”(Transmart),可满足用户快速翻译的需求,用AI辅助人工翻译提高效率和质量。该产品采用业内领先的人机交互式机器翻译技术,融合神经网络机器翻译、统计机器翻译、输入法、语义理解、数据挖掘等多项前沿技术,配合亿级双语平行数据,为用户提供实时智能翻译辅助,帮助用户更好更快地完成翻译任务。产品旨在致敬人工翻译,辅助人工翻译更快、更好地完成任务,探索人工智能赋能翻译行业新思路。


Transmart 核心功能简介


“腾讯辅助翻译”目前专注于中英互译功能,这占国内翻译业务80%以上,希望将中英互译的用户体验极致化。目前产品全面开放,普通用户可登录网页,翻译行业合作伙伴可直接调用多个应用程序接口,包括交互式机器翻译、辅助翻译输入法、个性化机器翻译、定制化机器翻译等。产品同时提供私有化部署,可将全套系统安装到用户本地网络,保证业务数据安全。


近年来,随着神经网络机器翻译技术的快速发展,机器翻译译文质量不断提升,机器翻译取代人工翻译的论调也甚嚣尘上。腾讯辅助翻译团队认为,在实际操作中,现阶段的机器翻译译文经常错漏百出,在完全没有人工干预的情况下,机器翻译译文的准确率并不能达到具体应用领域的翻译要求,如商业合同、法律条文、专业书籍、学术文献、旅游文本等。一名合格的职业翻译不仅需要长期的专业刻苦训练,还要具备大量的实战经验,才有可能胜任具体专业领域的翻译工作。在实际的应用场景下,目前机器翻译译文的准确率还无法与专业人工翻译匹敌。


但是,因为计算能力增强、机器翻译模型创新、语料规模大幅提升,机器翻译译文质量较之前已有明显改善,翻译速度也远胜人工翻译。现阶段,机器翻译可提供译文参考,帮助人工翻译完成一部分相对机械的任务,让人工翻译从繁杂低效的打字、查词等体力劳动中解脱出来,将精力投入到更高层次的译文创作中。在机器翻译等人工智能技术辅助人工翻译过程中,人工翻译将获得个性化机器翻译结果。通过人工与机器之间的互动,进一步提升翻译效率和质量。机器翻译不能替代人工翻译,但将重构人工翻译过程,腾讯辅助翻译正是基于这种理念而开发出来的技术创新产品,旨在提升人工翻译效率和翻译质量,满足日益增长的翻译需求。


腾讯辅助翻译产品采用了团队自研的人机交互式机器翻译技术,是一款人工智能辅助翻译互联网落地产品。人机交互式机器翻译技术专门针对人工翻译过程,是人工智能辅助翻译系统的核心技术。与一般的机器翻译相比,人机交互式机器翻译的重要特征是允许用户实时干预译文生成,提供交互式机器翻译、翻译输入法、实时译文建议等高效交互手段以提高人工翻译效率。腾讯辅助翻译实现了两个“第一”:


1、内核是国内第一个公开的交互式机器翻译的互联网落地产品;


2、搭载了业内第一个公开的融合机器翻译的辅助翻译输入法。该产品融合了人工智能和传统辅助翻译技术,为用户提供更便捷、流畅的人工翻译体验。


腾讯辅助翻译具体功能亮点如下:


交互式机器翻译


首个公开的交互式机器翻译互联网落地产品,根据输入内容实时更新自动译文,显著提升翻译效率。

640?wx_fmt=gif

交互式机器翻译基于自主实现的约束翻译解码技术,在提升译文准确性的同时,解码速度也被优化到满足互联网环境中实时交互的要求。实时解码速度是影响交互式机器翻译产品落地的关键因素。结合已有积累,腾讯AI Lab设计并实现了专用于人机交互的神经机器翻译系统。与普通机器翻译不同,交互式机器翻译的挑战主要在于无法预测用户动作,从而难以通过对原文建立缓存等常规方法来加快响应速度。腾讯AI Lab不断攻克技术难关,并一直致力于创造用户体验更佳的交互式机器翻译产品。


辅助翻译输入法


首个融合机器翻译的辅助翻译输入法产品,比普通输入法更少的按键数,显著减少打字时间。更快捷的拼音转汉字、更准确的单词补全,让用户享受翻译过程。

640?wx_fmt=gif

普通输入法因为难以感知翻译场景中的上下文信息,在准确性和个性化方面还有较大的提升空间。与普通输入法相比,辅助翻译输入法可利用统计机器翻译和神经网络机器翻译的知识,极大提升自动组词和推荐短语的准确性,同时使输入预测更具个性化。

640?wx_fmt=gif

640?wx_fmt=gif

自主实现的输入法知识挖掘算法,持续从海量互联网数据、亿级双语句对中抽取片断翻译知识,以此作为辅助翻译输入法的基础。在翻译过程中,再实时融合当前句子的机器翻译上下文信息,辅助用户快速完成翻译任务。


比如翻译英文句子“Jane Zhang became the first Chinese singer to perform for Victoria's Secret, joining the ranks of Taylor Swift and Katy Perry.”时,自动机器翻译错误地把张靓颖的英文名“Jane Zhang”翻译成了“简·张”:

640?wx_fmt=png

当用QQ拼音输入法时,需要输入“zhangliangy”共11个字母才能得到正确的“张靓颖”。

640?wx_fmt=png

但是,采用辅助翻译输入法之后,因为有数据挖掘和机器翻译知识的支撑,只需要输入“zl”就可以得到期望的结果。

640?wx_fmt=png

由此可见,辅助翻译输入法能够通过减少打字敲键数,提升人工翻译效率。


实时译文建议


基于自研的神经网络机器翻译引擎,提供灵活、准确的实时译文片断智能推荐,并可根据用户翻译历史和习惯不断学习,提供更贴合用户期待的个性化译文建议。

640?wx_fmt=gif

因目前阶段的机器翻译技术所限,机器译文的准确率并不高,因此提供的实时译文建议不能太长,否则会降低人工翻译效率。实时译文建议的难题就在于如何提供长度适中、准确率也比较高的短语或者子句。为此,腾讯 AI Lab 提出并实现了译文智能推荐算法,综合统计机器翻译、神经机器翻译等技术,尽量为用户提供最合适的译文建议。


比如,在翻译句子“首届中国国际进口博览会即将于11月5日开幕。”时,智能推荐算法发现机器译文将“开幕”一词翻译为“open”,但是在相对正式的文本中,翻译为“...be held”更恰当。智能推荐预测用户可能会在此处进行修改,就缩短了推荐片段,只推荐“...will”,方便用户直接采用。

640?wx_fmt=png


千万级专业术语、亿级例句参照


与传统辅助翻译软件相比,智能译文建议的来源不再局限于用户导入的术语库,而是全面综合互联网海量数据。腾讯AI Lab从几百TB的互联网文本中挖掘了数千万的专业术语翻译和亿级双语例句提供给用户作为翻译参考信息。然后以句子为维度关联展示术语库、例句库等参考信息,满足用户多领域、多文体的翻译需求。

640?wx_fmt=gif



辅助翻译API与定制化服务


为合作伙伴开放交互式机器翻译、辅助翻译输入法、个性化机器翻译API、定制化机器翻译等多个应用程序接口,提供定制化服务。辅助翻译API与定制化服务相关事宜,可以联系transmart@tencent.com。

640?wx_fmt=gif

腾讯辅助翻译由腾讯AI Lab的内部团队历时一年完成。腾讯AI Lab是腾讯的企业级AI实验室,于2016年4月成立,目前在中国和美国有70位顶尖研究科学家及300位应用工程师。自然语言处理(Natural Language Processing,简称NLP)是四大主要研究领域之一。NLP团队致力于追踪和研究最前沿的自然语言文本理解和生成技术,并孵化下一代自然语言处理技术与商业应用场景。团队科学家已在前沿理论研究上取得诸多创造性成果,在应用探索方面,其文本理解、文本生成、对话和机器翻译等技术已应用于公司诸多产品,提升产品智能化以更好服务用户。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493642.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

吴恩达作业2 利用两层神经网络实现不同颜色点的分类,可更改隐藏层数量

任务:将400个两种颜色的点用背景色分为两类。 前面的还是建议重点学神经网络知识,至于数据集怎么做的后面在深究,首先先看看数据集,代码如下: def load_planar_dataset():np.random.seed(1)m 400 # number of exampl…

利用tensorflow构建AlexNet模型,实现小数量级的猫狗分类(只有train)

首先看路径: data文件夹分为,model文件夹,train文件夹和文件夹,model文件夹存放模型文件,train存放cat和dog的两个文件夹图片, validation和train一样。config.py存放配置的一些参数,util.py定…

脑网络的可塑性——随时都在发生

来源:神经科技前沿神经元的突起是神经元胞体的延伸部分,由于形态结构和功能的不同,可分为树突(dendrite)和轴突(axon);树突是从胞体发出的一至多个突起,呈放射状。轴突每个神经元只有一根胞体发出轴突的细胞 质部位多呈…

KAZE论文研读

KAZE是发表在ECCV2012的一种特征点检测算法,相比于SIFT和SURF,KAZE建立的高斯金字塔是非线性的尺度空间,采用加性算子分裂算法(Additive Operator Splitting, AOS)来进行非线性扩散滤波。一个很显著的特点是在模糊图像的同时还能保留边缘细节…

简单的线性模型实现tensorflow权重的生成和调用,并且用类的方式实现参数共享

首先看文件路径,line_regression是总文件夹,model文件夹存放权重文件, global_variable.py写了一句话. save_path./model/weight 权重要存放的路径,以weight命名. lineRegulation_model.py代码 import tensorflow as tf "…

comparing ORB and AKAZE

文章全称是《Comparing ORB and AKAZE for visual odometry of unmanned aerial vehicles》。这是一篇来自巴西的文章,没有在百度文库中找到,是在其他博客中给出的链接得到的。从链接的URL可以看出这是一篇来自会议CCIS云计算与智能系统国际会议的文章。…

利用 CRISPR 基因编辑技术,人类正在做七件“疯狂”的事

来源:36Kr编译:喜汤很少有哪种现代科学创新能像CRISPR基因编辑技术一样影响深远。有了它,科学家们可以精确地改变任何细胞的DNA。CRISPR技术成为新宠,部分原因是它比早期基因编辑技术更容易使用。尽管CRISPR还没有彻底大展身手&am…

吴恩达作业3:利用深层神经网络实现小猫的分类

利用4层神经网络实现小猫的分类,小猫训练样本是(209,64*64*312288),故输入节点是12288个,隐藏层节点依次为20,7,5,输出层为1。 首先看文件路径,dnn_utils_v2.py代码是激活…

A-KAZE论文研读

AKAZE是KAZE的加速版本。KAZE在构建非线性空间的过程中很耗时,在AKAZE中将Fast Explicit Diffusion(FED)加入到金字塔框架可以dramatically speed-up。在描述子方面,AKAZE使用了更高效的Modified Local Difference Binary(M-LDB),可以从非线性…

和你抢“饭碗”的40家服务机器人企业大盘点!

来源:物联网智库摘要:本文将对国内近40家服务机器人企业进行汇总介绍,所选企业在其相应版块活跃度较高。从三个大类进行了细分盘点。国家机器人联盟(IFR)根据应用环境将机器人分为了工业机器人和服务机器人。服务机器人…

YOLO9000

YOLO9000是YOLO的第三个版本。前两个版本是YOLO v1,YOLO v2,在CVPR2017的文章《Better,Faster,Stronger》中的前半部分都是对前两个版本的介绍,新的内容主要在Stronger部分。YOLO9000中的9000指的是YOLO可以对超过9000种图像进行分类。 Bett…

吴恩达作业4:权重初始化

权重初始化的 正确选择能够有效的避免多层神经网络传播过程中的梯度消失和梯度爆炸问题,下面通过三个初始化的方法来验证: sigmoid导数函数:最大值小于0.25,故经过多层反向传播以后,会导致最初的层,权重无…

先发制人!Waymo将首推商用载人自动驾驶服务,Uber们怕不怕?

编译:费棋来源:AI科技大本营“真的,真的很难。”11 月举办的一场会议上,Alphabet 旗下 Waymo CEO John Krafcik 对做自动驾驶汽车技术的艰难不无感慨。在他看来,未来几十年内,自动驾驶汽车将一直存在限制&a…

利用ORB/AKAZE特征点进行图像配准

Kp1,kp2都是list类型,两幅图都是500个特征点。这和ORB论文中的数据是一样的。4.4章节 Matches也是list类型,找到325个匹配对。 AKAZE文章中提到一个指标:MS(matching score)# Correct Matches/# Features, 如果overlap area error 小于40%…

吴恩达作业5:正则化和dropout

构建了三层神经网络来验证正则化和dropout对防止过拟合的作用。 首先看数据集,reg_utils.py包含产生数据集函数,前向传播,计算损失值等,代码如下: import numpy as np import matplotlib.pyplot as plt import h5py …

十年之后,数字孪生将这样改变我们的工作与生活

来源:资本实验室数字孪生是近几年兴起的非常前沿的新技术,简单说就是利用物理模型,使用传感器获取数据的仿真过程,在虚拟空间中完成映射,以反映相对应的实体的全生命周期过程。在未来,物理世界中的各种事物…

什么是图像

图像,尤其是数字图像的定义,在冈萨雷斯的书中是一个二维函数f(x,y),x,y是空间平面坐标,幅值f是图像在该点处的灰度或者强度。下面通过OpenCV中最常用的图像表示方法Mat来看一下在计算机中是怎么定义图像的。 Mat的定义 OpenCV在2.0之后改用…

吴恩达作业6:梯度检验

梯度检验的目的就是看反向传播过程中的导数有没有较大的误差,首先看Jtheta*x的梯度检验:代码如下 import numpy as np """ Jx*theta的前向传播 """ def forward_propagation(x,theta):Jx*thetareturn J ""&quo…

10年后的计算机会是怎样的?

作者:孙鹏(剑桥大学计算机系博士)来源:新原理研究所上个世纪三十年代,邱奇和图灵共同提出了通用计算机的概念[1]。在接下来的十多年里,因为战争需要下的国家推动,计算机得以很快从理论发展成为实…

什么是图像变换

还是看OpenCV官方手册,我觉得这样可以同时学习如何使用函数和如何理解一些基本概念。 首先,这里的几何变换geometrical transformations是针对2D图像而言的,不改变图像内容而是将像素网格变形deform the pixel grid,映射到目标图…