导语 | 人工智能作为新一轮科技革命和产业变革的重要驱动力量,尤其是在当下新一轮 AI 大模型、生成式 AI 浪潮背景下,重视通用人工智能(AGI)成为行业的共识。在当前, AGI 技术背后的逻辑究竟是怎样的?技术创新的过程中又带来了哪些变革?今天,我们特邀了 Boolan ⾸席技术专家、全球机器学习技术⼤会主席、腾讯云TVP 李建忠老师,他将为我们带来关于 AGI 时代的技术创新范式与思考。
作者简介
李建忠,腾讯云 TVP,Boolan ⾸席技术专家,全球机器学习技术⼤会主席。对软件架构、产品创新、人工智能有丰富经验和深入研究。近年来主要研究以⼤语⾔模型为主的⼈⼯智能⽅法在软件领域的应用,相关研究和演讲引起业界强烈关注。曾于 2005 年- 2010 年期间担任微软最有价值技术专家,区域技术总监。拥有近⼆⼗年软件技术架构与产品经验,主讲多门技术课程,为包括众多世界 500 强公司在内的知名品牌提供⾼端 IT 技术咨询,影响近百万软件开发⼈员。
一、从产业迈进看AGI的发展
首先,从产业的角度来看,回顾技术的发展历程,我们会发现其脉络十分明晰,连接和计算都经历了从 1.0 到 2.0 的革命性变化。1840-1940 年的这 100 年间是连接的 1.0 阶段,这其中主要以电报、电话、广播和电视的相继诞生为标志,它们作为最早的连接技术,在互联网之前对人类社会的整个生态产生了巨大的影响。随着 1946 年第一代计算机的出现,而后大型机、小型机、微型机以及 PC 的问世,在这 50 年时间里技术逐渐从连接的 1.0 转变为计算的 1.0 时代。直到 1995 互联网出现后,Web2.0、移动互联网、云服务技术等推动着我们进入了连接的 2.0 时代,相较于 1.0 时代,主要在于连接从单向走向了双向。再到 2017 年 Transformer 结构的出现,ChatGPT1.0 的迭代使我们进入了计算 2.0 时代,目前这个时代仍将继续,按照过往技术发展曲线,我们可以预测将会持续到 2035 年左右。
其实,未来学家库兹韦尔曾在一本书中预测,人类社会所谓的计算机大概在 2040-2050 年期间将会全面超过人类。这在技术的发展过程中,将呈现出一种连接和计算的“钟摆”状态。连接解决的是生产关系,而计算解决的是生产力问题。连接模式的逻辑是提供信息以供用户决策,是广告天然的土壤,所以互联网最大的商业模式就是广告行业;而计算模式的逻辑是要用户向机器提供数据来帮助决策,其商业模式更趋向收费,典型例子便是 ChatGPT 爆火后各家开始进入付费使用。毋庸置疑,这是在计算逻辑下,效率优先,结果至上的结果。
在计算逻辑中,计算 1.0 作为写软件的时代,一边是生物神经网络,另一边则是数字逻辑电路,在这其中,我们需要把人类的自然需求转化成结构化的东西,让人来适应机器,所以这并不自然,而且在很多的问题上较为麻烦。而进入计算 2.0 时代,尽管伊利亚坚信目前以大模型的深度神经网络和我们人类大脑的生物神经网络在数学原理已几乎一致,但是由于两者生物学原理并不相同,存在碳基和硅基的区别,因此两个神经网络之间的对话非常自然,但还不够流畅,仍有许多工程技术问题亟待完善,包括数据训练部分,我们需要让机器来适应人的思维。
上图生动形象地说明了计算 1.0 和计算 2.0 计算方式的不同特点。当在数字 1.0 计算中,它是确定性的,只要条件相同,输入(X)相同,输出(Y)一定是相同的。然而,在数字 2.0 的神经网络计算中,它采用自然语言输入,并产生多个输出(Y1、Y2、Y3等),这种计算具有概率性,因此使用大型模型时无法确定要得到的是确定性的结果。同样的人在不同的时间可能会说出不同的话,因此也不能要求数字神经网络给出确定性的结果,这是数字 2.0 的显著特点。
在互联网行业,最早是由王兴在 2010 年提出了“四纵三横”理论,其中的三横指搜索、社交和移动。四纵则是最主要的需求类别包括信息、沟通、娱乐和商业。我们将这四个需求与三个横向进行二维匹配,便会发现中国和美国的许多互联网公司都处在这个二维平面上。我们应该关注那些空白的区域,在这个二维平面上创业。这个理论在当时似乎很正确,但是发展至今,这个理论存在一些问题,比如将社交和移动并列。在我看来,社交是一种需求而非一项技术,社交和移动不在同一个维度上。同时,搜索也是一种需求,而不仅仅只是技术。
在此基础上,我认为范式转换的“立方体”模型可以有效呈现当前的生态,在该模型中 X 轴代表人类需求,如信息、娱乐、搜索、社交、商业;Y 轴则代表技术平台,即连接 1.0、计算 1.0、连接 2.0、计算 2.0;Z 轴代表媒介交互,如文字、图片、音频、视频、三维等。我认为需求和技术的交叉点是创新的关键,同时强调媒介的变化对于产品和创新的影响。在智能时代,填充不同象限代表对应不同方向,比如大模型与不同领域结合,为其创新和产品发展提供新的思路。
二、大模型为软件开发带来巨大创新
在我看来,大模型主要具备以下四大核心能力:
- 生成模型:是其最成熟和最强大的部分,能够生成各种内容;
- 知识抽象:压缩人类知识,为知识密集型行业带来革新;
- 语言交互:是人机对话的核心,有巨大的想象空间;
- 逻辑推理:具备逻辑、规划、记忆能力,成为具身智能。
而以大模型核心能力为支点与不同领域结合会带来怎样的创新机会?我认为,以大模型应用层为切入点主要有 AI-Native 和 AI-Copilot 两个主要方向。AI-Native 是指完全融入 AI 的新型产品或服务,即高风险高回报。AI-Copilot 则是以渐进增强的方式,将 AI 能力嵌入现有的商业闭环中,并与现有的基础设施兼容和扩展。
在移动互联网时代,To C(面向消费者)指的是内容大于服务大于工具。如果在 AI 大模型领域从事工具开发,刚开始火爆并不代表就能得意忘形。此前很火爆的一些工具公司,如电脑清理软件等便是典型例子,今天早已悄无声息。这主要是因为它们竞争壁垒很低,容易被平台厂商挤压,用户切换成本也非常低。然而,今天互联网领域的社交媒体软件却经营得很好,这主要得益于内容大于服务,大于工具。因此,工具的价值是相对较低的。
因此,我们需要思考如何建立起强大的竞争壁垒,要么向服务化方向发展,要么向内容化方向发展。依赖工具取胜只能获得短期效益,不断打造优质内容提升用户粘性才是本质所在。然而,对于 To B(面向企业)则是另一路径,我们可以建立起强大的价值链条,决策大于效率大于内容。在 To B 领域,强调内容的优势是不够的,更多的是需要强调效率的优势。
同样,我们在软件领域也有十分重要的研究方向,大模型的发展也为软件开发带来了三大范式的转换:
- 开发范式:大模型将改变代码编写方式,从工程师写代码为主到 AIGC 生成代码为主,严肃的程序语言编程仍有它的空间,但它的占比显然会越来越少。这将带来一系列软件开发工具链和技能的大转移;
- 交互范式:从图形交互界面(GUI)转为自然语言交互界面(NUI),包括 NUI+GUI 协同、渠道结构化输入中间环节的变革,以及拆除孤立应用间的壁垒,使用自然语言来实现应用和服务的无缝集成;
- 交付范式:由于自然语言编程的低门槛,未来的软件将支持用户使用大模型,自主在现有软件基础上实现灵活扩展的“可塑软件”。从调用API到定制GUI,灵活定制功能、界面、服务,实现软件应用的“千人千面”。从标准固态软件,逐步演化为用户共创的“可塑软件”。最近 OpenAI 发布的 GPT Store 就展现了这方面。这块想象空间非常大,它会重塑软件的整个生态。
我坚信,在未来的三到五年内,整个 AGI 产业的成熟度将达到一个新的高度,国内外都将迎来巨大的创新机会。