纪念机器翻译概念的诞生:重新认识瓦伦·韦弗先生

来源:AI科技评论

作者:张家俊

编辑:丛  末

机器翻译旨在利用计算机实现自然语言之间的自动翻译,一直是自然语言处理与人工智能领域的重要研究方向,近年来更是取得了突破性进展,已成为大众较为熟知和常用的技术。

现在一提起机器翻译技术的起源,对该研究领域稍有了解的人们都知道是美国的瓦伦·韦弗(Warren Weaver,后面简称韦弗)最先于1947年提出机器翻译概念并于1949年7月正式记录于名为《翻译》的备忘录。不过,可能大多数人不是特别了解韦弗究竟是何许人也以及他怎么会提出机器翻译的概念。作为机器翻译领域的一名研究者,我对这些问题非常感兴趣,也希望让更多人了解机器翻译概念诞生的那些趣事和史实。

瓦伦·韦弗

如果让大家猜测的话,可能会认为韦弗是一位从事语言翻译的学者,由于人工翻译任务繁重从而产生利用计算机进行自动翻译的想法。其实不然,他的人生经历着实会让人惊叹不已。

如果您认为他提出了机器翻译的概念已经足够伟大,那么可以再告诉您韦弗是位数学家,二战期间曾帮助美军革新了防控火控系统和轰炸机技术,而且他首次提出了分子生物学的概念,他还与信息论之父香侬一同撰写了划时代意义的著作《通信的数学原理》(The Mathematical Theory of Communication)。有点尴尬的发现,机器翻译似乎仅仅是他的一个小小爱好而已。

如此多不同领域的贡献竟然集中于一人之身,足见韦弗的不凡之处。可能我们会有疑问,韦弗到底从事哪种职业呢?实际上很难用教授、研究员或者科学家某个称谓概括他的职业生涯。下面,让我们慢慢走进韦弗的人生。

1

从威斯康星到纽约

韦弗1894年7月17日出生于美国威斯康星州的里兹堡市,从小酷爱各种捣鼓,立志成为一名工程师。进入威斯康星大学后,受到查尔斯·斯莱希特(Charles Slichter)和马克思·马森(Max Mason)两位老师的影响(需要重点记得马森,他似乎要对韦弗的职业生涯负责到底),韦弗发现自己的兴趣和热情并不在工程技术,而是应用数学和理论物理,从而毅然转向数学,于1916年获得数学学位,并于1917年获得了土木工程的学位,看来他还是没有完全放弃工程技术。大学毕业后在马森的推荐下去施罗普大学(大名鼎鼎的加州理工学院的前身)做过短暂的数学老师,之后在美国空军服役了两年。退役后回到威斯康星大学继续博士研究,1921年获得博士学位。毕业后留校担任数学教授,并于1928年起担任威斯康星大学数学系主任,按照韦弗自己的说法他不太擅长数学研究,如果这样下去人生注定平淡无奇。

这时候,韦弗的人生导师马森再次出场,先是邀请韦弗一起撰写了经典物理教科书《电磁场》(The electromagnetic field),并且在其担任洛克菲勒基金会总裁后力邀韦弗担任马森之前负责的该基金会自然科学部的主任。洛克菲勒基金会总部位于纽约,换工作的话意味着不仅要搬家还要面临职业方向的转变,从大学教授变成科研项目管理人员可能并不那么吸引人。但是,韦弗思考良久后决定跟随老师到纽约去,1932年正式就任洛克菲勒基金会自然科学部主任,从此开启了他不凡的科学探索、规划和管理生涯。这里要稍微介绍一下给韦弗提供充分施展其才华的洛克菲勒基金会。

洛克菲勒基金会正式成立于1913年,已经是一个百年老字号,也差不多是世界范围内慈善事业做得规模最大成果最多的私人基金会。这里简单列举几点我们可能比较熟知的成就:1,医学领域,洛克菲勒基金会建立了现代公共卫生领域,开发疫苗帮助根除黄热病和疟疾等疾病;2,农业领域,推动了20世纪第三世界国家农业生产技术改革的绿色革命;3,信息领域,资助了于1956年召开的标志人工智能起源的达特茅斯会议;4,在中国,资助建立了北京协和医学院及其附属北京协和医院。洛克菲勒基金会的伟大成就还有很多很多。有了这样的舞台,韦弗得以大展拳脚,尽情展现其对未来科学趋势把控和科研管理的才能。

2

向生物领域进军

洛克菲勒基金会的钱很多,理论上想资助什么就资助什么,那么资助方向就显得尤为重要。上任伊始,韦弗凭借其物理学背景以及对生物技术即将爆发的敏锐嗅觉,成功说服洛克菲勒基金会的董事会将资助重点从物理学转向生物学中的新兴领域(当然,这个过程应该也得到了总裁兼老师马森的大力支持)。

方向只要对了,一切就会顺利。仅仅5-6年时间,这些新兴领域被资助的科研项目进展十分迅速,1938年韦弗在基金会自然科学年报中将这些生物学中新兴技术统称为分子生物学。由此,分子生物学的概念诞生了,从而开辟了一个崭新的生物、化学与物理交叉融合的学科方向。

现在,我们熟知的DNA研究以及新冠肺炎中的核酸检测都属于分子生物学领域。在韦弗的推动下,洛克菲勒基金会资助了这一领域的诸多研究者,其中很多学者若干年后都成为了具体学术方向的执牛耳者。举个例子,1954-1965年分子生物学相关领域洛克菲勒基金会资助的学者中有15位获得了诺贝尔奖(该领域一共18位),可以说韦弗的最大贡献之一就是极大地推动了20世纪全球生物学的发展。

3

为信息论做点贡献

在担任洛克菲勒基金会自然科学部主任期间,韦弗一直保留着他对应用数学(特别是概率和统计)的研究热情。其中,一个突出成就是1949年与克劳德·香侬(Claude Shannon)共同撰写了划时代意义的著作《通信的数学原理》。不过,香侬一直在贝尔实验室工作,实际上两人并没有交集,那么为什么会成为这部巨著的共同作者呢?其中的故事非常有趣。

1948年,香侬在贝尔系统科学杂志《Bell System Technical Journal》上发表了《通信的一个数学理论》(A Mathematical Theory of Communication),奠定了信息论和通信理论的基石。这样来看信息论的奠基性工作跟韦弗一点关系没有。但是,香侬著作中的数学描述比较晦涩难懂,而且阐述该理论仅适用于工程通信领域,因此该著作的受众很少。

韦弗一直对信息论保持很高的兴趣,并且理解非常深刻,也有自己独到的见解,他于是采用通俗易懂的语言阐述并扩展了香侬的理论,并于1949年在《科学美国人》(Science American)杂志上发表了《通信中的数学》(The Mathematics of Communication)。时任美国伊利诺伊大学出版社主编的威尔伯·施拉姆教授(传播学之父)认为两者结合最完美,因此将韦弗和香侬的文章分别作为第一和第二部分重新修正编排,出版了划时代意义的《通信的数学原理》(The Mathematical Theory of Communication)著作(从低调的“通信的一个数学理论”直接修改成了霸气的“通信的数学原理”)。现在,“香侬-韦弗模式”已经成为通信和传播领域无人不知的基本理论,足见韦弗在信息论的发展和传播中扮演了何其重要的作用。

4

机器翻译概念的诞生

现在,让我们回归正题,探寻韦弗提出机器翻译概念的过程以及对后续机器翻译发展的影响。据韦弗本人回忆,整个过程源于他的一位杰出数学家朋友经历的真实故事。我们称这位数学家朋友为P,他之前是德国人,在土耳其伊斯坦布尔待过一段时间,并且学习过土耳其语。该故事发生于二战期间,由于战争的需要,那些年密码学的研究十分盛行。有一天,P的一位同事F声称想出了一个解密算法,于是请P设计一段密文,然后测试一下这个解密算法。P对密码学也十分感兴趣,鉴于F不懂土耳其语,P想为难一下F,于是用土耳其语写下包含100个词语的一段话,然后将土耳其语中的非英文字母替换为英文字母,最后经过稍微复杂点的替换等操作,生成了一段数字序列的密文。没想到F第二天就将解码结果呈现给P。虽然F声称没能成功解码出结果,只得到一串没有意义的英文字母组成的字符串序列(由于不懂土耳其语,所以认为没有意义),但是P稍加修改后就能还原土耳其语的信息。

这个故事深深触动了概率论和统计学背景的韦弗。本来韦弗就对语言翻译有点兴趣,这个在后面会提到。经过深入思考,韦弗认为不同语言中字母频率和组合方式等都具有相似的规律,因而可以通过利用这些特征进行语言的解密,也即语言的自动翻译。

但是,利用什么工具进行自动翻译成为一个关键性问题。正好,1946年诞生了世界上第一台电子计算机ENIAC,受语言解密和计算机的启发,韦弗于1947年提出了机器翻译的思想,并与控制论之父诺伯特·维纳针对机器翻译的可行性进行了书信探讨。首先一个疑问是韦弗为什么要和维纳讨论呢?实际上,一方面韦弗主导洛克菲勒基金会资助了维纳,帮助其创立了控制论学科,彼此应该比较熟悉;另一方面,韦弗认为语言的自动翻译是一个复杂系统,而维纳是复杂系统研究的权威,讨论机器翻译非维纳不可。只不过,维纳和韦弗仅讨论了一个回合,并且认为机器翻译面临的假设空间太大、歧义性太强,基本不可行。韦弗非常失望,希望摆事实讲道理继续和维纳探讨,最终想说服维纳,可是然后就没有了然后。

韦弗深知要让机器翻译的概念被人们(当然也包括维纳)接受,就需要提出切实可行的设计方案和实现技术,证明其可行性。于是,韦弗经过两年的思考,并且在1948年与有类似想法的英国伦敦大学伯克贝克学院的布斯(Andrew D. Booth)进行了深入探讨,最终于1949年7月正式在《翻译》备忘录中提出机器翻译概念以及四种可能的实现策略。

第一种实现策略基于简单的词语替换方法,其核心是解决词义消岐问题。韦弗认为一种自然语言到另一种自然语言的自动转换面临的关键问题是不同语境中的词语多义现象。他提出的一个可行方案是用N个词语窗口的上下文信息来帮助预测中心词语的语义,并且认为N不需要太大。该思想在最初实现的基于直接转换的机器翻译方法中得到了应用。

第二种实现策略假设语言是一种逻辑表达。语言之间的自动转换就可以形式化为一种逻辑表达到另一种逻辑表达的自动推导。韦弗希望利用这个策略说明机器翻译是形式上可解决的。后来,基于规则的翻译方法和统计机器翻译中基于同步上下文无关文法的译文推导模型与该策略的基本思想可以说是一致的。

第三种实现策略假设语言间的自动翻译实际上可以看作通信过程,即一种输入信号(未知的目标语言文本,也可以称为密码学中的明文)经过信道输出另一种信号(可观察的源语言,密码学中的密文),翻译过程就是根据输出信号恢复输入信号的过程。作为信息论先驱的韦弗受到二战期间破译密码的启发,认为机器翻译实际上与密码破译问题十分类似,挖掘两种语言之间的统计模式就可以实现语言的自动转换。1990年左右统计机器翻译的兴起就是基于这个策略的基本思想。

第四种实现策略假设所有语言之间存在相同的逻辑特征,可以视为一种通用语言或者中间语言。韦弗认为源语言到目标语言的自动翻译可以首先将源语言转换为中间语言,然后再从中间语言转换为目标语言。后来,美国卡内基梅隆大学开发的JANUS机器翻译系统就采用了基于中间语言的翻译方法。不过,中间语言的定义和表示一直是一个未解难题。当前,基于统一编码器和解码器的多语言神经机器翻译框架本质上类似于基于中间语言的翻译思想。所有语言通过相同的编码器生成分布式的语义表示,然后解码器从分布式语义表示生成目标语言。

可以看出,上述第一种策略到第四种策略,想法越来越大胆,难度也越来越大。不过,从历史的发展来看基本上符合机器翻译方法的进阶过程,不得不佩服韦弗对未来科学发展的战略眼光。

机器翻译的概念诞生后,逐渐吸引了越来越的学者进入这个新兴研究领域。三年后,韦弗主导洛克菲勒基金会资助了1952年6月17-20日于麻省理工学院召开的第一届机器翻译会议,会议由另一位机器翻译先驱巴尔-希列尔(Yehoshua Bar-Hillel,大数学家、哲学家、罗辑学家和语言学家)组织,一共18位专家与会。后来的事情大家就比较熟悉了,例如1954年第一个机器翻译系统在纽约公开演示,1976年加拿大的天气预报机器翻译系统让人眼前一亮,1990年左右IBM的统计机器翻译模型诞生,推动了谷歌、微软和百度等在线翻译系统的开发,2014年之后深度学习给机器翻译带来了突破性进展。

5

退休后的生活

从1932年担任自然科学部主任到1959年退休,韦弗将其大半的职业生涯都贡献给了洛克菲勒基金会。退休后被邀请继续担任了5年斯隆基金会(Alfred P Sloan Foundation)的副总裁。退休后直至1978年去世的十几年,韦弗一方面利用更多时间陪伴家人,以另一方面开始将更多精力放在自己的兴趣上。从后续的著作来看,韦弗的兴趣主要集中于概率论和语言翻译。1963年,韦弗出版了一本科普专著《幸运女神:概率理论》(Lady Luck: The Theory of Probability),希望将概率理论介绍给更广泛的人群。

在语言翻译方面,韦弗并没有继续研究机器翻译方法,而是对文学作品的不同语言的翻译版本产生了兴趣。作为刘易斯·卡罗尔(Lewis Carroll)的超级粉丝,韦弗对《爱丽丝梦游仙境》不同语言的翻译版本特别感兴趣。

1964年,韦弗出版了另一本专著《很多语言中的爱丽丝》(Alice in Many Tongues),在这部著作中他详细对比了40种不同语言的版本,希望传递给大家一个信息:将《爱丽丝梦游仙境》翻译为其他语言面临非常大的挑战。但是韦弗不可能懂40种语言,于是他采用了一种back-translation的方法,将其他语言回翻为英语,然后再对比不同的英语版本。Back-translation的概念对如今神经机器翻译的研究者来说太熟悉不过了,已经成为神经机器翻译领域的流行技术,也是各种机器翻译竞赛的必备技术。不过,back-translation的技术应用于神经机器翻译也只是在2016年被正式提出,没想到的是韦弗老爷子早在半个多世纪前就已经在利用back-translation的思想了,还能说什么呢,除了佩服还是佩服。

从韦弗的人生经历以及所取得的成就中我们至少可以得到两点启示。首先,兴趣是成功的关键因素。其次,对趋势和方向的把控和选择不仅决定个人的成就,也将对国家和全球的技术发展起到至关重要的作用。

参考文献:

Warren Weaver. 1955. Translation. Machine Translation of Languages, 14:15-23, 1955.

Weaver, Warren. 1964. Alice in Many Tongues: The Translations of “Alice in Wonderland.” Madison: University of Wisconsin Press.

Warren Weaver. National Academy of Sciences. 1987. Biographical Memoirs: V.57. Washington, DC: The National Academies Press.

Lily E. Kay. 1996. The Molecular Vision of Life: Caltech, the Rockefeller Foundation, and the Rise of the New Biology, Oxford University Press, Reprint 1996.

John Hutchins.1998. Milestones in machine translation. Language Today, no. 13. 1998. pp. 12-13.

本文作者:张家俊,中国科学院自动化研究所研究员,主要研究方向为机器翻译、自然语言处理、深度学习。知乎专栏:https://www.zhihu.com/people/zhang-jia-jun-29-18

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/487402.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

php 怎样清除浏览器痕迹,如何清除电脑使用痕迹?上网痕迹清理的方法介绍

当我们上网的时候,会使用电子信箱,会登录很多论坛类网站,这样就会留下账号;可能会访问一些网站,这样会留下上网信息;可能会登录一些电子商务网站,那账号和密码则会默认保存在系统之中&#xff0…

兰德报告《现代战争中的全域联合指挥控制--一种确定和开发人工智能应用的分析框架》...

本文来源:兵推天下本报告作者研究了美国空军应用人工智能(或更广泛的自动化系统)进行有计划全域联合指挥控制规划的机会并给出了相关建议。作者发现,要为未来多域战提供支持,必须协调以下三个范畴的内容:1)…

实现内、外网同时访问

不少公司的网管试图解决双网卡问题,下面我就给大家详细的讲解一下双网卡同时使用的方法,这样即可保障内网的安全,又能解决电脑访问外网的问题,一举两得。希望大家喜欢。 首先你的机器需要有两块网卡,分别接到两台交换机…

日本面向未来的特定科技领域技术预见分析

作者:王达,中国科协创新战略研究院本文转载自微信公众号科学家,原载于《今日科苑》2020年第5期目前,全球面临的环境、人口变化、资源、粮食和能源安全等问题亟待解决,先进的测量技术与信息处理技术的深度融合可以刺激更…

oauth2.0 php简化模式,OAuth2.0学习(1-5)授权方式2-简化模式(implicit grant type)

授权方式2-简化模式(implicit grant type)简化模式(implicit grant type)不通过第三方应用程序的服务器,直接在浏览器中向认证服务器申请令牌,跳过了"授权码"这个步骤,因此得名。所有步骤在浏览器中完成,令牌对访问者是…

人与人工的智能区别

来源:人机与认知实验室是非之心,智也! 为什么说这不仅仅是指伦理道德,其实,这涉及到人之智能、智慧的根本:非逻辑推理性的判断! 机器的判断是逻辑推理性的,对环境的适应性自然就弱了一些。作家菲茨杰拉德的…

AI大觉醒:图灵奖得主Bengio称AI将产生意识,未来机器学习核心是注意力机制

来源:人工智能AI技术人工智能会产生意识吗?这是一直以来美剧《西部世界》中探讨的问题。AI主人公觉醒,意识到这个世界是人类杀伐主宰的乐园,于是开启了逆袭之路。2020年ICLR上,图灵奖得主、蒙特利尔学习算法研究所主任…

人类应鼎力进行探索的35种颠覆性技术

本文转载自“战略前沿技术”,原标题《人类应鼎力进行探索的35种颠覆性技术》人类文明的进步,只要出现难以逾越的障碍,必然给人类的发展带来迷茫和灾难。而解决的路径只有一个:科技探索和创新。只有鼎力进行中的科技探索&#xff0…

【codevs2488】绿豆蛙的归宿

这个题开始正向拓扑排序,然后各种wa,心灰意冷,找了个题解,和同学研究了半天,甚至曾经一度认为题解是错的。 这个题正向反向应该都无所谓,但是我实在是蒻,打了半天正向都没打过去,最后…

半导体光刻机行业深度报告:复盘ASML,探寻本土光刻产业投资机会

报告来源:西南证券1、 提要:光刻工艺是晶圆制造最核心环节,光刻产业链协同发展成为光刻机突破关键因子1.1 光刻定义晶体管尺寸,光刻工艺合计占芯片成本近 30% 2019 年全球半导体市场规模达 4090 亿美元,成为数码产业的…

C语言的参数传递原理解析(值传递)

本讲我们和大家一起来聊一聊C语言中有关参数传递的一些知识。 1.问题引入 请写出以下程序的打印结果。 #include // 将某整数加10 void add_by_10(int a){ a a 10; } int main(int argc, char *argv[]){ int a 2; add_by_10(a); printf("a %d\n", a); 上面的程序非…

字符串php手册,php知识点复习之字符串

欢迎进入Linux社区论坛,与200万技术人员互动交流 >>进入 /*echo mark qqqqqq\nqqqqqqbrqqqqqqqqqqqqq\rqqqqqqqqqqqqqqqqqq mark*/ //技术标志要另起一行,并且是顶格写! //作用跟""类似//最致命的一点是:mark后面…

一个诡异的循环:意识何以意识到意识自身?

© Lia Koltyrina / Shutterstock本文经公众号利维坦(ID:liweitan2014)授权转载存在的感觉可能只是一种感觉。——本凯利夫(Ben L. Callif)与其他事物相同,我似乎身处宇宙漩涡的中心,整个宇…

美军重视扩展现实技术的研究和应用

来源: 知远战略与防务研究所 编译:王绍祺美国陆军退役中将苏珊劳伦斯曾担任陆军G-6首席信息官、网络企业技术司令部司令,现为埃森哲联邦服务公司武装部队部门总经理。苏珊劳伦斯在美国《信号》杂志2019年10月号发表文章,指出扩展…

寒武纪开盘暴涨350%,市值突破1000亿,85后创始人身家超300亿!千亿盛宴背后隐忧不可忽视!...

来源:EETOP7月20日,寒武纪科创板首发上市,发行价每股64.39元,开盘价为250元/股,涨幅288%。最高价更是达到了295元/股,涨幅358%!市值一度突破1000亿人民币,不过随后股民信心有所不足&…

Mac上的抓包工具Charles

今天就来看一下Mac上如何进行抓包,之前有一篇文章介绍了使用Fidder进行抓包 http://blog.csdn.net/jiangwei0910410003/article/details/19806999 不过可惜的是,Fidder使用C#开发的,所以就不能在Mac上使用了,不过还有另外一个抓包…

oracle 在所有表中查某个值,oracle需要查询某个字段的值在其他某个表中有没的值有相同...

使用场景:知道某个字段的值(例如:“张三”),需要查询在其他某个表中有没有相同的值,常用于搜索关联表等。对于oracle数据库:Pl\sql没有搜索功能,需借助存储过程,完成搜索,搜索结果是…

oracle11g session,Oracle11g中Killsession心得

我们知道,在Oracle数据库中,可以通过kill session的方式来终止一个进程,其基本语法结构为:我们知道,在Oracle数据库中,可以通过kill session的方式来终止一个进程,其基本语法结构为:alter system kill session sid,serial# ;被kill掉的session,状态会被标记为killed,Oracle会在…

26个顶尖战略咨询公司常用分析模型详解!

导 读 ( 文/ CMKT咨询圈 整理 )咨询行业是不少小伙伴的奋斗目标,麦肯锡、波士顿、贝恩等顶尖战略咨询更是所有行业顶尖的存在,咨询顾问是如何解决问题,为企业做战略规划,咨询公司常用分析模型功不可没。几乎每个大型快消企业的高管…

中国工程院王辰院士对话百度CTO王海峰,大数据与医学的一场史诗级邂逅

来源:脑极体你有多久没有关注疫情的消息了?除了戴口罩变得格外闷热,以及偶尔从海外传来的新闻之外,我已经很少会主动点开《新型冠状病毒肺炎疫情地图》了,而几个月之前,我简直恨不得“住”在疫情新闻板块里…