张亚勤院士谈“智能计算新趋势”

1bf454c2faeeb68e3e19566e9d0d3cb1.png

来源:人工智能计算大会

作为第四次工业革命的核心,人工智能已经成为全球新一轮科技革命和产业变革的核心驱动力。在2021人工智能计算大会(AICC 2021)上,清华大学智能科学讲席教授、美国艺术与科学院院士张亚勤带来了《智能计算新趋势》主题演讲,分享了在信息、物理和生物智能融合的新时代下,AI计算面临的新挑战及突破传统范式的新趋势。同时,张亚勤教授分享了人工智能在生命科学、绿色计算及自动驾驶领域最前沿的应用成果,探讨人工智能的技术如何真正赋能各产业,推动社会的进步。

76b449f4c0027d1e4f88f25fd642d443.png

以下是张亚勤教授演讲原文(有删减):

大家好,特别高兴参加人工智能计算大会,我今天分享的是有关于产业发展的新趋势,包括人工智能在生命科学、双碳趋势下的绿色计算、自动驾驶等领域中扮演的一些角色。

AI计算趋势

在过去30年中,如果说有一件事是最重要的,那无疑是“数字化”,在80年代、90年代我们所做的是把内容和企业数字化。从当时的语音、图像、视频、文本,后来到企业ERP、CRM,包括云计算,其实是数字化的1.0和2.0阶段。

现在,我们进入了新一轮的数字化3.0,这包括两个世界的数字化。

■ 一是物理世界数字化,我们的路、车、交通灯,家庭、车间车床工厂,甚至整个城市都在数字化。

■ 二是生物世界,即我们的生命世界也在数字化,我们的大脑、身体器官、DNA基因、蛋白质等正在走向数字化,同时各种新的生物电子芯片、脑机接口技术也在不断发展。

麻省理工学院多媒体实验室主任Nicholas Negroponte写的《数字化生存》,谈的就是数字化1.0,他认为这是从原子到信息再到比特的变革过程。至于数字3.0阶段,我认为是从比特回到原子、分子的过程,可以说是原子、分子和比特的双方映射。

第三次数字化和第一轮、第二轮有完全不同的一些特点。一方面是指数级的数据,比如在无人车领域,每天一辆车产生的数据量是5T;在基因测序领域,每一次测序产生的数据是3T,蛋白质三维结构的数据10300,所以数据在海量地增长。另一方面,这些数据主要不是给人而是给机器做决策的,是机器到机器的环节。

人工智能经过了很多发展阶段,最早是更多依靠知识的符号逻辑推理,但知识并不完备,所以造成了AI的第一个冬天。而现在,更多是数据驱动的深度学习;未来,我认为是知识和数据的融合,包括关于大脑的知识,以及大量的现实世界数据,同时也包括第一性原理方程式,比如薛定谔方程、分子动力学方程等等

深度学习可以说是这十年来的主流,从RNN、LSTM、CNN,到现在的GAN和Transformer,其经历了丰富的发展阶段,当下的方向是预训练、多模态、大模型。其中有不少挑战,包括因果性、可解释性、透明性,但也有新的解决方案。

目前,在感知方面,机器已经达到和人类相当的水平,甚至在某些方面还要更好,虽然认知能力还有一定的差距,但我认为在未来十年左右也将缩小。

人工智能发展中很重要的一点,就是三要素里面的“算力”,也即“计算”。摩尔定律已经遇到瓶颈,因此,现在的深度学习,特别是大模型、大计算,其算力不仅仅要达到摩尔定律,而且要超越摩尔定律。它们每年的计算需求几乎达到10倍增长。

例如GPT-3,它是1000多亿参数的大模型。OpenAI团队后面没有资金继续做,微软投资把GPT-3模型训练出来。

中国和美国在这个领域你追我赶。鹏城的盘古、智源的悟道、浪潮的“源1.0”、微软-AMD的图灵,不管是算力还是参数、数据,都比GPT-3大很多。在此方面,GPT-4可能也会马上出现,一旦出现,我认为中国的企业、科研机构也会超越GPT-4。这是一个好现象,中美两国在这个行业的科技、产业方面形成良性竞争,对整个行业的发展都是有益的。

IT产业有三个定律,一个是香农定律,一个是冯·诺依曼架构,另外一个是摩尔定律。我们现在所做的,就是突破这三个极限,特别是冯·诺依曼架构,它已经被使用了将近60年,依然是目前计算的主流架构。在人工智能时代,它有诸多局限,现在很多科研、产业都在想怎么去突破它。比如,在听觉、视觉、触觉、味觉之外打造新的感知,如激光雷达、三维结构、光传感、生物的传感;另外,我们有新的数据流,需要海量的并行计算,包括AI的一些算法,如矩阵、算子、波尔代数等,都需要超越冯·诺依曼架构。我们看到,很多新兴科研产品出现,一些非传统的芯片公司现在也都进入了芯片和程序库领域。

长期来看,我们需要突破计算的范式。目前类脑计算、量子计算、光计算、生物计算都有重大进展;在空间分布方面,我们的计算也有很大变化:最早IBM大型机是完全的中央计算,PC阶段则变为完全分布式的,到云计算时又回到中央式的,现在我们正走向云+边+端的协同智能。未来,许多计算将走向边缘,我相信,在未来十年中,90%以上的计算能力可能会到边缘,整个计算会更动态化、分布化。

AI+生命科学

下面我简单讲人工智能在三个领域的应用,也是我们主要在做的一些科研工作。

在生命科学领域,一是刚才讲过生物世界在数字化,产生了天文级的组学数据,基因组学,蛋白质组学,转录组学,细胞组学,这些组学数据再加上各种组合带来的数量是天文级的。二是,整个生物的实验,干实验和湿实验完全闭合会走向自动化,未来越来越少的人介入,这是在实验范式上很大的突破。三是,人工智能科学计算,我们现在生物世界里面更多的是分子动力学,未来AI将走进科学计算。

简单看一下,AI在生命科学方面的进展,第一个是基因编辑,编辑的基底清楚之后,AI的算法可以更精准的找到治病基因,治疗的方式让靶点更加准确。其实就是把这个搜索空间大大的减少了。

另外,我们不仅仅可以做小分子的制药,也可以做大分子,抗体,以及TCR个性化的疫苗和药物,还有我们看到最近AlphaFold在蛋白质解析方面的进展,从一维的序列到三维的结构到功能,都会加速发展。其次,随着高通量自动化的实验发展,新的范式正在构成。最近新冠疫苗的研发就是一个例子,从2020年1月基因的序列被发布之后,可以看到3个月之后,蛋白质的结构很快就解析出来了,1个月之后,病毒和人的交互方式就被解析了,很快灭活疫苗研发成果,这在人类历史上是最快的一个周期,仅不到一年时间,我们的疫苗就出来了。

另外一个工作是我们彭健教授所做的,根据目前我们已有的肿瘤细胞系上药物数据,加上动物的模型、老鼠的模型产生的数据来预测药效。因为人类的这些数据比较少,可解释型的机器学习能够很快的去迁移到人体内药效预测上。右边是乳腺癌患者的实例,可以看到用这样的方式不仅仅加快研发速度而且对于药物推荐使用的准确度也提高了5倍。另外一个例子是我们最近也是彭健教授团队,用几何深度学习,先把蛋白质表面的几何表征训练起来,然后用深度的图网络来做抗体亲和力预测。我们抗体设计不仅仅在过程上加速了很多,也已经成功的应用到新冠的中和抗体药物的开发上。

还有我们在基因大数据方面的工作,由兰艳艳教授带领学生完成,我们现在知道基因10%是已经编码的,90%是没有编码的,这些开放区域与转录因子的结合以及和目标基因的调控关系,最终会影响生物的性状。但这些数据过去大家都不用,也不知道怎么用。那我们现在通过人工智能最前沿的预训练技术,通过构造一个全新的模态,建立基因数据的有效表达,继而对下游的基因表达预测,剪切预测,治病性预测等任务都有显著的帮助。这个工作刚刚开始,未来还有很大的发展空间。

很重要的是,我们发现这里面有非常大的挑战,我们做人工智能或者说计算机科学,和生命科学,是两个不同的语言体系。过去的合作方式都是比较机械的,或者是生物科学家去调程序包,或者把算法用到生命科学领域。为了打通两个领域,我们做了一系列的工作,从硬件层到数据层,然后到算法层,这些工作叫“破壁计划”。

这方面很好的例子是AlphaFold。首先第一点问题——从蛋白质一维序列到三维结构,它是一个科学的问题;第二点的话,就是每次破解蛋白质的结构之后,大家把数据拿出来共享,就可以看到积累的数据越来越多。

随着数据更多、算力更大、算法更新,我们希望做的是,把这样的一种方法论用到更广阔的领域,不仅是蛋白质,还有抗体、基因预测等方面。

AI+绿色计算

人工智能在绿色计算双碳领域也有重要的的应用。当环境与气候已经成为一种挑战,碳中和是可持续发展的必然选择,同时也是能源结构调整的大机遇。

人工智能在这个领域也有很多应用。一个方向是物联网,做AIOT,重要的是要感知这个世界,知道碳排放、能源从哪里来、怎么消耗的;第二,有了数据之后,就可以用算法进行智能决策,然后配制资源、进行资源循环。比如在能源融合方面,怎样让火电、核电、水电、风电、太阳能更好地融合到电网里去,在供电、储能、用电各环节都进行数据监控、优化、感知和均衡,这是大问题,人工智能算法会在其中扮演不同角色。

讲到双碳排放,IT行业和ICT行业也是一个大的排放源。我和团队讲,先把我们自己的排放问题解决了:数据中心运行的大数据、大计算产生了很多排放;5G本身是特别好的技术,但由于需要很多基站、天线,所以功耗也比较高;另外大的算法、模型也有很多排放。

我们近期的一个工作是5G基站。众所周知,5G用的Massive MIMO里面有很多基站,这样计算一下,比如50个基站就有64个MIMO,组合数就很高了,正常应用的时候还要做最优的布阵、部署,有很多种可能性,数量绝对会达到天文级。我们最近做了一些工作,是真实的基站加上一些模拟的场景,用多Multi-agent cooperative Contextual Bandits这个算法,其实也不是特别复杂,也包括一些离散正向学习算法,使得功耗降低了15%左右、5G网络覆盖质量提高了5%左右。这个工作其实才刚刚开始,我想告诉大家,人工智能算法在很多领域都会有应用,应用之后可以起到很好的效果。

另一个工作更理论化:现在的大模型、大数据、大计算,能否也走向另一端,即小模型、小计算、小功耗,在边缘处用传感器或手机就可以做类似的计算。当然精度可以低一点,比如80%、90%,但功耗、计算量、模型可能是百分之一、甚至是千分之一。其中很多大家可能都比较熟悉,像蒸馏、压缩、量化,对模型本身进行重新优化和部署。

AI+自动驾驶

最后是人工智能在自动驾驶方面的应用,这也是我自己研究时间比较多的领域。

汽车产业已有上百年的历史,这个产业最近在经历百年未有之大变局,无论产业结构还是技术要素都进入了新阶段。其中,智能化是无人驾驶最关键的环节。为什么这么说?首先是更安全,90%以上的交通事故是人为事故,而自动驾驶可以把它降到最低;其次是更绿色,它的效率更高,可以节能减排。

我认为自动驾驶也是人工智能领域目前最有挑战、最难、最复杂的一个技术问题,但同时可以解决。它是一个复杂的大系统,但可以解剖成子问题,逐个解决;但如果没有边界的话可能就没法解决。最具挑战、但又有边界的是AI垂直领域问题。

自动驾驶领域有一些关键的议题。这个领域有市场的力量,也有非市场的力量;市场力量包括技术是否可行、用户是否有需求、产业生态、商业模式等,非市场的力量包括政策法规、伦理隐私等。在技术方面,完全无人的L4级别自动驾驶,究竟是梦想还是现实?究竟是以视觉为主,还是采取激光雷达多传感器的模式?究竟是以单车智能为主,还是需要车和路、车和车协同?是渐进式跳跃,L2、L3走上去,还是直接跳跃到L4?是像安卓一样开源,还是像Apple一样封闭?到底是现在的汽车OEM会赢得这场竞争,还是造车新势力?我注意到有很多的问题。要真正实现大规模无人驾驶,还需要一些时间。

我们开车的时候,是在用最安全且实时的方式,加上对时间的预测,构建一个三维环境场景,做这件事是很难的。其中很重要的是,要有大量的数据、做很多测试、不断改进算法。实际驾驶中永远都会遇到此前训练中没有的场景。图片上就是这辆特斯拉撞上一辆白色卡车,当时天气特别好,蓝天白云,它用视觉一看,以为前面没有东西,就直接撞上去了。很多时候AI必须能预测,泛化的能力是人工智能的一个大挑战,对自动驾驶、无人驾驶更加重要,因为一旦出现问题,就关乎生命安全。

238fdf13c2f17af42f0cb8d703516c44.png

关于视觉与多传感器的问题,我的观点是能拿到多少数据就拿多少数据。新的传感给我们提供了新的数据和新维度的信息,AI的感知能力是唯一可以超过人类的点。摄像头、激光雷达或各种不同传感器可以看到人类眼睛看不到的东西,这是AI的优势,必须加以利用。运用视觉也可以实现无人驾驶,但其本身的鲁棒性及安全性受限;而用激光雷达加上算法,就可以检测出深度的信息,分辨车、行人,分辨运动或不动的物体,这就是有深度、有结构的物体信息。所以视觉摄像头和激光雷达相结合是最佳的方式。大家有顾虑,认为激光雷达太贵了,其实现在混合雷达价格已是可接受的。我想,固态雷达一定会是未来的趋势,L2、L3的车上也会用到。

自动驾驶本身需要很强的智能,交通灯和道路配合也可以提供更高维的数据,车端和路端完全可以互补。有些东西车是看不到的,车只能看到100多米,而且经常会被遮挡,交通灯则可以提供新的信息,这对自动驾驶安全提供了很重要的保障。

现在车的分级是从L0一直到L5,L5就是完全无人,可以在所有的场景、所有的气候中行驶。最近清华大学智能产业研究院(AIR)和百度有个联合项目,把路也分成C0-C5,到C4就是任何车都能无人驾驶,但这是比较极端的情况,我们希望最终的结果是车和路的融合。

我们做的物理模型和数学模型也显示,车和路协同能够大幅度提高安全性。在超距离跟车、换道、左转这三个不同场景中,都可以看到路、灯的信息大幅度提高了车的安全程度。

42f19cfcff0774ca5e875ee71ed07ead.png

总结

最后总结一下:在前三次工业革命中,蒸汽机时代、电气时代、信息时代,我们都是跟随者、旁观者,而现在进入第四次工业革命,到了智能时代,我们国家的体量、政策的优势、大量的科研人才,一定能让我们成为第四次工业革命的领军者!感谢大家。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

605e8511ea91befdfaa62b12e1417ab5.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483261.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

神经网络支持大脑是「预测机器」,预测是节能的

来源:ScienceAI编译:绿萝我们的大脑,一个包裹在骨性头骨内的三磅重的组织,如何从感觉中产生知觉是一个长期存在的谜。大量证据和数十年的持续研究表明,大脑不能像拼拼图一样,简单地组合感官信息来感知周围环…

元宇宙不是下一代互联网,而是人类群体思维空间或梦境世界的具现

前言:本文是根据6G俱乐部举办的6G与元宇宙研讨会上的发言整理形成作者:刘锋目前,业内有一种声音提出元宇宙是下一代互联网,之前WEB2.0、物联网、移动互联网和区块链爆发的时候也曾经这样表达过,如果从互联网的发展历史…

数据结构和算法——栈、队列、堆

文章目录1.预备知识1.1 栈1.2 队列1.3 堆2.用队列实现栈2.1 题目描述2.2 解题思路2.3 C实现3.用栈实现队列3.1 题目描述3.2 解题思路3.3 C实现4.最小栈4.1 题目描述4.2 解题思路5.合法的出栈序列5.1 题目描述5.2 解题思路5.3 C实现6.基本计算器6.1 题目描述6.2 解题思路7.数组中…

综述 | 北斗系统应用趋势分析

来源:智绘科服初审:张艳玲复审:宋启凡终审:金 君一、前言2020年6月23日,北斗三号最后一颗组网卫星成功发射。2020年7月31日,北斗三号建成暨开通仪式举行,北斗三号全球卫星导航系统正式开通[1]…

数据结构与算法——贪心算法

文章目录1.分发饼干1.1 题目描述1.2 解题思路1.3 C实现2.摆动序列2.1 题目描述2.2 解题思路2.3 C实现3.移掉K位数字3.1 题目描述3.2 解题思路3.3 C实现4.跳跃游戏4.1 题目描述4.2 解题思路4.3 C实现5.跳跃游戏 II5.1 题目描述5.2 解题思路5.3 C实现6.用最少数量的箭引爆气球6.1…

人为什么要睡觉?科学家给出进一步答案

来源:科技日报作者:张佳欣 人类一生中有三分之一的时间在睡觉,包括苍蝇、蠕虫甚至水母等无脊椎动物也会睡觉。在整个进化过程中,睡眠对所有具有神经系统的有机体来说都是普遍的,也是必不可少的。然而你有没有想过&…

操作系统——简介

文章目录1.操作系统的功能和目标1.1 作为用户和计算机硬件之间的接口1.2 作为系统资源的管理者1.3 作为最接近硬件的层次2.操作系统的概念、功能和目标3.操作系统的四大特征3.1 并发3.2 共享3.3 虚拟3.4 异步4.操作系统的运行机制4.1 两种指令4.2 两种处理器状态4.3 两种程序5.…

Andrew Gelman、Aki Vehtari​ | 过去50年最重要的统计学思想是什么?

来源: 数据分析网作者 :Andrew Gelman 美国统计学家、哥伦比亚大学统计学教授Aki Vehtari 阿尔托大学计算机科学系副教授近日,图灵奖得主、“贝叶斯网络之父”Judea Pearl在Twitter上分享了一篇新论文“What are the most important statis…

全局唯一ID的生成

数据在分片时,典型的是分库分表,就有一个全局ID生成的问题。单纯的生成全局ID并不是什么难题,但是生成的ID通常要满足分片的一些要求: 1 不能有单点故障。 2 以时间为序,或者ID里包含时间。这样一是可以少一个索引…

操作系统——进程

文章目录1.进程的定义2.进程的组成3.PCB4.进程的状态4.1 进程的五种状态4.2 进程状态间的转换5.进程控制6.进程通信6.1 共享存储6.2 管道通信6.3 消息传递7.线程7.1 线程的概念7.2 引入线程后的变化7.3 线程的属性7.4 线程的实现方式7.4.1 用户级线程7.4.2 内核级线程7.4.3 混合…

10分钟了解图卷积神经网络的常用算法和发展方向

来源:数学算法俱乐部近几年,机器学习在各个领域井喷式发展,现已成为当下最热门的技术。掌握机器学习,你就比 80% 的人更具备竞争优势。谷歌的无人驾驶、抖音的推荐系统、百度的人脸识别、大疆的无人机、科大讯飞的语音识别、小米的…

操作系统——调度

文章目录1.调度的概念2.调度的三个层次2.1 高级调度2.2 中级调度2.3 低级调度2.4 三种调度之间的关联1.调度的概念 2.调度的三个层次 2.1 高级调度 2.2 中级调度 2.3 低级调度 2.4 三种调度之间的关联

诺奖得主被曝40多篇论文造假!

来源:科研城邦截止2021年11月6日,Gregg L. Semenza教授针对其在Pubpeer被挂的52篇论文,进行了至少6篇文章的纠正,且撤回了1篇文章。离谱的是,这位美国约翰霍普金斯大学教授,正是2019年诺贝尔生理学或医学奖…

操作系统——死锁

文章目录1.死锁的概念2.死锁产生的必要条件3.什么时候会发生死锁4.死锁的处理策略4.1 预防死锁4.1.1 破坏互斥条件4.1.2 破坏不剥夺条件4.1.3 破坏请求和保持条件4.1.4 破坏循环等待条件4.2 避免死锁4.2.1 安全序列4.2.2 银行家算法1.死锁的概念 2.死锁产生的必要条件 3.什么时…

苏联的三进制电脑,为什么被二进制干掉了?

来源:差评 当我们在电脑上打开一个软件,看一部电影,听一首歌的时候,我们很难想象,这些东西都是由 0 和 1 这样的二进制数字组成的。但你有没有好奇过?为什么计算机要用二进制呢?难道是因为它效…

linux标准I/O——标准I/O介绍

文章目录1.文件的相关概念1.1 什么是文件1.2 文件类型2.标准I/O概念2.1 什么是标准I/O2.2 FILE和流2.3 流的缓冲类型2.4 stdin,stdout和stderr1.文件的相关概念 1.1 什么是文件 \qquad一组相关数据的有序集合 1.2 文件类型 文件类型表示举例常规文件r文本文件、二…

70页论文,图灵奖得主Yoshua Bengio一作:「生成流网络」拓展深度学习领域

来源:机器学习研究组订阅GFlowNet 会成为新的深度学习技术吗?近日,一篇名为《GFlowNet Foundations》的论文引发了人们的关注,这是一篇图灵奖得主 Yoshua Bengio 一作的新研究,论文长达 70 页。在 Geoffrey Hinton 的「…

linux标准I/O——流的打开和关闭

文章目录1.打开流2.mode参数3.fopen举例4.新建文件权限5.处理错误信息6.关闭流1.打开流 2.mode参数 3.fopen举例 #include<stdio.h> int main() {FILE *fp;fpfopen("a.txt","r");if(fpNULL){printf("fopen error\n");return -1;}return 0…

卷积神经网络数学原理解析

来源&#xff1a;海豚数据科学实验室作 者&#xff1a;Piotr Skalski翻 译&#xff1a;通夜&#xff08;中山大学&#xff09;、had_in&#xff08;电子科技大学&#xff09;编 辑&#xff1a;Pita 原标题&#xff1a;Gentle Dive into Math Behind Convolutional Neural N…

【大数据】分布式集群部署

1、集群规划部署 节点名称NN1NN2DN RMNMhadoop01NameNode DataNode NodeManagerhadoop02 SecondaryNameNodeDataNodeResourceManagerNodeManagerhadoop03 DataNode NodeManager2、参考单机部署&#xff0c;拷贝安装目录至相同目录&#xff0c;使用ln -s 建立软连接 3、修改配置…