清华刘知远:大模型「十问」,寻找新范式下的研究方向

2f97da624b465641f1b6f8db54dd84ee.png

来源:智源社区

作者:刘知远

整理:李梦佳

大模型的出现迎来了AI研究的新时代,其所带来的结果提升十分显著,超越了很多领域中针对研究问题设计特定算法实现的提升。

具体而言,预训练到Finetune的新范式最本质的特点是统一框架以及统一模型。首先,更加统一的架构,在预训练出现之前,CNN、RNN、Gate、Attention等在内的算法框架层出不穷。2017年 Transformer出现之后,取代各种流行框架的是一个统一框架。其次,这种统一框架通过预训练机制带来了统一的模型,因而我们现在可以用一个统一模型进行微调,使其同时用在非常多的下游任务上。

那么,在大模型时代有哪些新问题亟待关注和探索?

由此,我想和大家分享一下十个值得深入探索的问题。希望有更多研究者在大模型时代找到自己的研究方向。

问题如下:

1、理论:大模型的基础理论是什么?

2、架构:Transformer是终极框架吗?

3、能效:如何使大模型更加高效?

4、适配:大模型如何适配到下游任务?

5、可控性:如何实现大模型的可控生成?

6、安全性:如何改善大模型中的安全伦理问题?

7、认知:如何使大模型获得高级认知能力?

8、应用:大模型有哪些创新应用?

9、评估:如何评估大模型的性能?

10、易用性:如何降低大模型的使用门槛?

01

理论:大模型的基础理论是什么?

首先,我认为在大模型当中第一个非常重要的问题就是它的基础理论问题。大模型的一个非常重要的特点就是可以利用非常少的下游任务数据进行相关下游任务的适配,无论是全量下游任务的训练数据还是few-shot learning,甚至zero-shot learning,都能达到相当不错的效果。同时在预训练到下游任务适配过程当中,需要要调整的参数量可以非常少,这两个特点都是大模型给我们带来的新现象。

32ef640f8af421d099eb167fc60c9b5e.png

针对这个现象我们有非常多的问题可以去问:

第一,What——大模型到底是什么?我们应该有什么样比较好的数学或者分析工具对大模型进行定量分析或者理论分析,这本身就是一个非常重要的问题。

第二,How——大模型为什么好?大模型是如何做到这一点的?Pre-training和Fine-tuning是如何关联在一起的?以及大模型到底学到了什么?这些是How的问题。

最后,Why——大模型为什么会学得很好?这方面已经有一些非常重要的研究理论,包括过参数化等理论,但终极理论框架的面纱仍然没有被揭开。面向这三个方面,即What、How和Why,大模型时代有着非常多值得探索的理论问题。

2142f0a4ef78a93974c4de2d8d26e28f.png

02

架构:Transformer是终极框架吗?

第二个问题,目前大模型使用的主流基础架构,Transformer的提出距离我们已经有5年的时间(2017年提出)。我们看到,随着模型规模的不断增长,性能提升也逐渐出现边际效益递减的情况,那么Transformer是不是终极框架呢?有没有可能会找到比Transformer更好更高效的框架?这也是一个值得探索的问题。

14b97f2f7e53e5d78984fdff55ac62bd.png

神经网络本身是受到了神经科学的启发,我们可以通过其他学科的支持去探索下一代大模型框架。其中来自数学学科的启发包括,非欧空间Manifold的框架,以及如何将一些几何先验放到模型里,这些都是最近比较新的研究方向。

d77a3c053bccca5bb3374d88ba005255.png

我们还可以从工程和物理角度去考虑这个问题,比如State Space Model,以及动态系统的角度去考虑等等;第三个方面来自于神经科学,面向类脑最近一直有人在研究Spiking Neural Network,上述这些都是新型架构的前沿研究。到底下一代大模型框架是什么?还没有一个标准答案,这本身就是一个亟待探索的问题。

9b3921e25d39a1932373f60513f174f3.png

f1210a0703e5a045cdf0e7ce7164eefd.png

03

能效:如何使大模型更加高效?

第三个问题,大模型的性能问题。随着大模型越变越大,对计算和存储成本的消耗自然也越来越大。最近有人提出GreenAI的概念,即需要考虑计算能耗的情况来综合设计和训练人工智能模型。面向这个问题,我们认为,随着模型变大,AI会越来越需要跟计算机系统进行结合,从而提出一个更高效面向大模型的支持体系。一方面,我们需要去建设更加高效分布式训练的算法,在这方面国内外都有非常多的相关探索,包括国际上比较有名的DeepSpeed 以及悟道团队在开发的一些加速算法。

d23b9fd5a7e4a0196d5555be54c7a970.png

另一个方面,大模型一旦训练好去使用时,模型的“大”会让推理过程变得十分缓慢,因此另外一个前沿方向就是如何高效将模型进行尽可能的压缩,在加速推理的同时保持它的效果。这方面的主要技术路线包括剪枝、蒸馏、量化等等。同时最近我们发现,大模型里面具有非常强的稀疏发放的现象,这对于模型的高效压缩和计算有着非常大的帮助,这方面需要一些专门算法的支持。

c4b4a3d9ca06fc8fe9b2e4a167918390.png

b5e8a131154cebe854bca020f97c720f.png

04

适配:大模型如何适配到下游任务?

第四个问题,大模型一旦训好之后如何适配到下游的任务?模型越大,在已知任务上效果越好,同时也展现出支持未定义过的复杂任务的潜力。同时我们会发现随着大模型变得越来越大,适配到下游任务的计算和存储开销会显著增大。大家看我们统计结果从2020年到2021年顶会上的论文,你会发现越来越多的论文在使用预训练模型,但是真正去使用大模型的论文还是处在非常低的水平。

8ee9d935861cba812008ece7cdc71dba.png

非常重要的原因就在于即使全世界已经开源了非常多的大模型,但是对于很多研究机构来讲,他们其实还是没有办法很好把大模型适配到下游任务上,这方面是大模型一个非常重要的研究前沿,一个非常重要的方向其实就是刚才唐杰老师有提到的Prompt Tuning,通过把下游任务形式更改成一个跟预训练过程中所谓masked language model相似的形式,让适配过程变得更加平滑和容易。

75974c9585aad8c8e6bedfb27c36add4.png

另外非常重要的一个前沿其实就是parameter-effcient learning或者Delta Tuning,基本思想就是只去调整大模型里非常小的一些参数,从而让这个模型非常快的适配到下游任务,会让适配过程不会变得那么困难,这方面是我们认为如何去把大模型快速适配到下游任务的关键问题,这是一个非常前沿的方向。刚才唐老师提到,我们其实开源了两个工具包括OpenPrompt和OpenDelta来支持这个方面的快速研究,也是欢迎大家使用、相关意见和建议甚至可以贡献。

83a26c66d227ef5dbf4b6acaeb8111c3.png

05

可控性:如何实现大模型的可控生成?

第五个问题,大模型的可控生成。目前大模型已经可以生成一些新的文本或图像,但如何精确地将我们想要的条件或者约束加入到生成过程中,这是大模型非常重要的研究方向。

f2763f7c7795a8fa26c3a97c9d44e29b.png

这个方向也有很多技术方案,其中包括唐老师提到的思路,把一些prompt加入进来,让生成的过程接受我们提供的条件。

c924ac2f7de2247a568f7806fda21743.png

这方面也有一些开放性问题,比如如何建立一个统一的可控生成框架,如何实现比较好的评测方法,对生成的文本进行概念性甚至事实性的自洽检测,以及如何针对新的数据进行相关的生成。

892671e026d332eed0f4fdf1da42e9bd.png

06

安全性:如何改善大模型中的安全伦理问题?

第六个问题,现在的大模型本身在安全伦理方面考虑的比较少。实际上会容易出现大模型被攻击的情况,可能稍微改一改输入就不work。另外,大模型的使用过程也会存在一定的伦理问题,这些问题都需要我们对大模型进行有针对性的约束。

1d8cc27681d3b6430fbea61dac42a2de.png

在这个方面,包括黄民烈老师等团队也在开展一些工作,我们发现大模型特别容易被有意识地植入一些后门(backdoor),从而让大模型专门在某些特定场景下做出特定响应,这是非常重要的安全性问题。

bd130267dabeefecffc99ebb6765318f.png

另外,此前的研究表明模型越变越大之后,会变得越来越有偏见,越来越不值得被信任,这种信任度降低的趋势就是我们需要探索的问题。

07

认知:如何使大模型获得高级认知能力?

第七个问题,人的高级认知能力是否可以让大模型学到?能不能让大模型像人一样完成一些任务?人去完成任务一般会进行几个方面的工作:一,我们会把这项任务尝试拆分成若干个简单任务,第二,针对这些任务去做一些相关信息的获取,最后我们会进行所谓的高级推理,从而完成更加复杂的任务。

0af76f1a43448396f4f6227a09531f9a.png

这也是一个非常值得探索的前沿方向,在国际上有WebGPT等方法的尝试已经开始让大模型学会使用搜索引擎等等。我们甚至会问,可不可以让大模型学会像人一样网上冲浪,去有针对性地获取一些相关信息,进而完成任务。

08

应用:大模型有哪些创新应用?

第八个问题,大模型在众多领域的创新应用。近年来《Nature》封面文章已经出现了五花八门的各种应用,大模型也开始在这当中扮演至关重要的角色。这方面一个耳熟能详的工作就是AlphaFold,对整个蛋白质结构预测产生了天翻地覆的影响。

8cc3695a92bbf6aa417c4dd9c745135d.png

未来在这个方向上,关键问题就是如何将领域知识加入AI擅长的大规模数据建模以及大模型生成过程中,这是利用大模型进行创新应用的重要命题。

f4480c0e7ca5d858073c414e913b7acd.png

09

评估:如何评估大模型的性能?

第九个问题,大模型建得越来越大,结构种类、数据源种类、训练目标种类也越来越多,这些模型的性能提升到底有多少?在哪些方面我们仍需努力?有关大模型性能评价的问题,我们需要一个科学的标准去判断大模型的长处和不足,在这方面智源也有相应的努力,因此我们提出了“智源指数”的概念。

050d8974b236f339e7776c6680993607.png

9d8760de2c81345e17489bd404987a46.png

10

易用性:如何降低大模型的使用门槛?

最后,我们认为大模型已经在统一框架和统一模型支持下展现出非常强大的实力,未来有希望广泛应用在各种各样的场景中。而为了更广泛的应用,需要解决的问题是如何降低它的使用门槛。在这方面,我们应该受到历史上数据库系统以及大数据分析系统的启发,需要构建大模型的系统,并在底层相关计算设备、系统的支持、用户接口以及应用普世性等方面进行统一的考量。

339a2ec0fcdde14758e099779171db00.png

在这方面,在清华大学和智源研究院支持下,我们最近在开发一套面向大模型的支持系统,在训练、微调、推理到后处理等各个方面都能提供全流程的高效计算支持,该系统预计将在3月底正式发布。现在个别套件已经可以在网上获取,欢迎大家利用大模型系统,更好地遨游在大模型的时代,做出前沿的探索和应用。

971f3743425045656a72967c3c8c4366.png

总结来看,上述十个问题是我认为非常重要值得探索的方向,希望更多同学、更多研究者在大模型的时代去发现值得研究的问题。这是一个全新的时代,有些老的问题消失了,也有更多新的问题出现,期待我们一起去探索它们。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

c574a9c5b7eb7016f7cd6c474e545a76.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482360.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Django - ORM操作

Django - ORM操作 一. 必知必会13条 单表查询之神奇的双下划线二. ForeignKey操作 正向查找反向操作三. ManyToManyField四. 聚合查询和分组查询 聚合分组五. F查询和Q查询 F查询Q查询六. 锁和事务 锁事务七. Django ORM执行原生SQL 执行原生查询直接执行自定义SQLDjango - ORM…

从王者荣耀AI看人工智能与游戏结合的未来意义

来源:央广网国际在线消息:3月18日,成都大运会倒计时100天之际,由大运会执委会主办,腾讯承办的“世界大学生数智竞技邀请赛”正式启动。这次邀请赛将融合科技、文化、竞技的赛场精神,以《王者荣耀》和腾讯AI…

String源码分析

最近开始阅读java底层的源码,是因为发现越到后面越发现读源码的重要性,真的很重要,不阅读源码,你会发现“路”越走越窄。 今天看到了String的这个构造方法, /*** Initializes a newly created {code String} object so…

575万奖金!2022年数学界「诺贝尔奖」发布,拓扑学大师获奖

来源:AI科技评论作者:西西编辑:陈彩娴3月22日晚,被誉为数学界「诺贝尔奖」的阿贝尔奖揭晓。2022年,挪威科学院决定将阿贝尔奖授予来自美国纽约市立大学研究生院的阿尔伯特爱因斯坦讲座教授、纽约州立大学石溪分校的教授…

为什么深度学习是非参数的?

来源:AI科技评论作者:Thomas Viehmann编译:钱磊编辑:陈彩娴今天我想要与大家分享的是深度神经网络的工作方式,以及深度神经与“传统”机器学习模型的不同之处。我的计划具体如下:首先简单地思考一下如何将问…

“一束光”让机器人也能拥有触觉?之江实验室这项技术惊艳世界

来源:浙江日报传递触觉的“特殊道路”我们对这个世界最初的感知通常是从触觉开始的——第一声啼哭之前,婴儿经历过诱发哭声的拍打;成长中提笔、拍球;生活中握手,敲击键盘,使用手机……触觉充斥着我们日常生…

图书管理系统~简单流程

1. 连接数据库 2. 路由url (网站目录) 2.1若要从URL 中捕获一个值,只需要在它周围放置一对圆括号。(分组)2.2使用简单的、没有命名的正则表达式组(通过圆括号)来捕获URL中的值并以位置 参数传递给视图。在更高级的用法…

7年前轰动全球的Science论文,被发现可能搞错了

来源:iNature蛇是一个非常多样化和成功的群体,但它们的进化起源是模糊的。两条腿蛇的发现揭示了从蜥蜴到蛇的过渡,但没有描述过四条腿蛇,早期蛇的生态知之甚少。2015年7月24日,英国朴茨茅斯大学David M. Martill等人在…

Django - AJAX

一. JSON 什么是json? json指的是JavaScript对象表示法(JavaScript Object Notation)json是轻量级的文本数据交换格式独立于语言, 支持不同的编程语言具有自我描述性, 跟易理解合格的json对象: ["one", "two", "three"] { "one": 1, …

培育强人工智能的「ImageNet」:上海交大卢策吾组提出铰接物体知识库 AKB-48

来源:前沿科技编译:OGAI编辑:陈彩娴ImageNet 的出现极大推动了计算机视觉领域的发展。在通往强人工智能的路上,我们还需要考虑物体的外观、结构、物理性质、语义等因素。为此,上海交大卢策吾组近日重磅推出了大型真实世…

模块化认知:演化如何自下而上涌现出智能?

来源: 集智俱乐部作者:Michael Levin, Rafael Yuste译者:郭瑞东审校:刘志航、梁金 编辑:邓一雪 导语无论是聪明的人、哺乳动物、鸟类,还是细胞和组织、神经元网络、病毒以及蛋白质分子,在所有尺…

Stuart Russell:智能本质和人工智能安全的巨大挑战

斯图尔特罗素(Stuart Russell),加州大学伯克利分校计算机科学专业教授,著有人工智能领域“标准教科书”——《人工智能:一种现代化方法》(与谷歌研究主管Peter Norvig合著)来源:智能…

费马大定理:三百年数学圣杯的角逐

来源:和乐数学费马大定理,又被称为“费马最后的定理”。人类前赴后继挑战了三个世纪,多次震惊全世界,耗尽人类众多最杰出大脑的精力,也让千千万万业余者痴迷。费马大定理的故事与数学的历史有着千丝万缕的联系&#xf…

Django - Form和ModelForm

一. form介绍 1.生成页面可用的HTML标签 2. 提供input可以提交数据 3. 对用户提交的数据进行校验 4. 保留上次输入内容 5. 提供错误信息 二. 普通方式书写注册功能 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8">&…

人工智能,“抛弃”真实数据集?

来源&#xff1a;学术头条当前&#xff0c;人工智能技术已经应用在我们日常生活中的方方面面&#xff0c;比如人脸识别、语音识别、虚拟数字人等。但普遍存在的一个问题是&#xff0c;科研人员要想通过训练一个机器学习模型来执行某一特定任务&#xff08;比如图像分类&#xf…

Django - Cookie和Session

Django - Cookie和Session cookie Django中操作CookieCookie版登陆校验Session Django中Session相关方法Session流程解析Session版登陆验证Django中的Session配置Django - Cookie和Session cookie Cookie的由来 大家都知道HTTP协议是无状态的。 无状态的意思是每次请求都是独立…

一文说清AI智能平台

来源&#xff1a;海豚数据科学实验室有一天&#xff0c;小李的领导说&#xff1a;“我们要做AI平台&#xff01;”。虽然平台产品也不是新概念了&#xff0c;随着AI技术的成熟&#xff0c;AI平台产品也越来越多&#xff0c;但光凭做平台一句话&#xff0c;小李还是犯了难——大…

2D图像转3D仅需5秒,特斯拉的自动驾驶技术有救了?

来源&#xff1a;科技智谷编译&#xff1a;徐浩75年前&#xff0c;宝丽来相机拍摄出第一张即时照片&#xff0c;是人类第一次以逼真的二维图像快速捕捉三维世界&#xff0c;具有划时代的意义。今天&#xff0c;人工智能的研究人员正在进行相反的工作&#xff0c;力求在几秒钟的…

Django - 中间件

Django - 中间件 一. 什么是中间件 官方: 中间件是一个用来处理Django的请求和相应的框架级别的钩子, 他是一个轻量, 低级别的插件系统, 用于在全局范围内改变Django的输入和输出, 每个中间件都负责做一些特定的功能. 大白话: 中间件是帮助我们在视图函数执行之前和执行之后都可…

回答薛定谔问题: 生命是什么?自由能公式

来源&#xff1a;CreateAMind回答薛定谔的问题:自由能公式麦克斯韦詹姆斯德索莫拉姆斯泰德a,b,∗保罗本杰明巴德科克c,d,e,卡尔约翰弗里斯顿f,1加拿大魁北克蒙特利尔麦吉尔大学哲学系加拿大魁北克蒙特利尔麦吉尔大学精神病学系社会和跨文化精神病学分部c墨尔本大学心理科学学院…