AI大模型简史:萌芽、沉淀、爆发!

近一年来,随着ChatGPT爆火,大模型热潮席卷全球并持续升温,国内越来越多的知名高校、科研院所和创新型企业加大研究力度,大模型技术不断迭代升级,模型能力不断加强,逐渐形成从底层算力、模型开发到行业应用的新兴产业,大模型也从语言文本,到音视图文,再到动作行为,最终将走向人类社会往人机共生的社会。

PART 01

AI大模型双核动力:

预训练与大模型

人工智能大模型是“人工智能预训练大模型”的简称,是“大数据+大算力+强算法”结合的产物,是凝聚了大数据内在精华的“隐式知识库”,包含了“预训练”和“大模型”两层含义,即模型在大规模数据集上完成了预训练后无需微调,或仅需要少量数据的微调,就能直接支撑各类应用。

图片

训练大模型“预训练+精调”模式(来源:IDC&百度)

简单来说,预训练就像是知道了所有大量基础知识的学生,完成了“通识”教育。但他们还需要实践,需要反馈后的精细调整,才能更好地完成任务。

而人工智能大模型,是预训练与大模型的协同作用,就像是一个有着非常大和复杂大脑的超级聪明学生。这个大脑里有成亿上万的小电路(参数),使它能够学习和处理大量不同类型的信息。这个学生通过阅读大量的书籍(数据)来学习,因此他变得非常聪明,能够做很多事情,比如理解语言、识别图片或者创作艺术作品。但是,这个学生也需要很多能量(计算资源)来维持他的学习和思考,而且如果他学习的内容有错误或偏见,他也可能学到错误的知识。

PART 02

AI大模型简史:

萌芽、沉淀、爆发!

人工智能发展成为人工智能大模型的过程,主要得益于深度学习技术的成熟,计算能力的提升和算法的优化,其发展历经了三个阶段:萌芽期、沉淀期和爆发期。

萌芽期(1950-2005):以CNN为代表的传统神经网络模型阶段。

1956年,从计算机专家约翰·麦卡锡提出“人工智能”概念开始,AI发展由最开始基于小规模专家知识逐步发展为基于机器学习。1980年,卷积神经网络的雏形CNN诞生。1998年,现代卷积神经网络的基本结构LeNet-5诞生,机器学习方法由早期基于浅层机器学习的模型,变为了基于深度学习的模型,为自然语言生成、计算机视觉等领域的深入研究奠定了基础,对后续深度学习框架的迭代及大模型发展具有开创性的意义。

沉淀期(2006-2019):以Transformer为代表的全新神经网络模型阶段。

2013年,自然语言处理模型 Word2Vec诞生,首次提出将单词转换为向量的“词向量模型”,以便计算机更好地理解和处理文本数据。2014年,被誉为21世纪最强大算法模型之一的GAN(对抗式生成网络)诞生,标志着深度学习进入了生成模型研究的新阶段。2017年,Google颠覆性地提出了基于自注意力机制的神经网络结构——Transformer架构,奠定了大模型预训练算法架构的基础。2018年,OpenAI和Google分别发布了GPT-1与BERT大模型,意味着预训练大模型成为自然语言处理领域的主流。在探索期,以Transformer为代表的全新神经网络架构,奠定了大模型的算法架构基础,使大模型技术的性能得到了显著提升

爆发期(2020-至今):以GPT为代表的预训练大模型阶段。

2020年,OpenAI公司推出了GPT-3,模型参数规模达到了1750亿,成为当时最大的语言模型,并且在零样本学习任务上实现了巨大性能提升。随后,更多策略如基于人类反馈的强化学习(RHLF)、代码预训练、指令微调等开始出现, 被用于进一步提高推理能力和任务泛化。2022年11月,搭载了GPT3.5的ChatGPT横空出世,凭借逼真的自然语言交互与多场景内容生成能力,迅速引爆互联网。2023年3月,最新发布的超大规模多模态预训练大模型——GPT-4,具备了多模态理解与多类型内容生成能力。在迅猛发展期,大数据、大算力和大算法完美结合,大幅提升了大模型的预训练和生成能力以及多模态多场景应用能力。如ChatGPT的巨大成功,就是在微软Azure强大的算力以及wiki等海量数据支持下,在Transformer架构基础上,坚持GPT模型及人类反馈的强化学习(RLHF)进行精调的策略下取得的。

图片

国内外典型大模型梳理(数据来源:赛迪智库)

可见,随着计算能力的提升和算法的优化,研究者们开始探索更大规模的模型训练。同时,预训练模型和大规模预训练技术的发展也为AI大模型的崛起提供了可能。通过在大规模数据集上进行预训练,模型可以学习到丰富的知识和经验,从而更好地适应各种下游任务。

PART 03

AI大模型技术演进:

从泛用到专长

人工智能大模型是通过人工智能发展演变而来,同时也是人工智能领域的一个重要分支,它通过超大规模参数和超强计算资源实现了更高的能力和更好的通用性。当谈及人工智能与人工智能大模型之间的差异时,可从以下几方面探讨:

技术基础:

人工智能的技术基础包括符号逻辑、专家系统、基于规则的系统以及传统的机器学习方法等。这些方法通常基于人类专家的知识或者手动设计的特征。人工智能大模型的技术基础是深度学习,特别是基于神经网络的方法。这些方法能够自动从数据中学习特征和模式,而不需要手动设计特征。

数据需求:

人工智能大模型通常需要大规模的数据集来进行训练,以便模型能够从中学习。这些数据集可能包含数十亿甚至数万亿的文本、图像或视频等。一些传统的人工智能方法可能不需要如此庞大的数据集,而是依赖于少量的人类专家知识或者手动标注的数据。

模型复杂性:

人工智能大模型往往拥有巨大的模型规模和复杂的结构,例如数十亿甚至数万亿的参数。这些大模型具有更强大的学习和推理能力,但也需要更多的计算资源来训练和部署。传统的人工智能方法可能会设计相对简单的模型,参数数量较少,但可能会牺牲一定的性能。

计算资源需求:

人工智能大模型通常需要大量的计算资源来进行训练和推理,例如数千甚至数万台GPU。这使得其在实践中的应用受到了硬件资源的限制。传统的人工智能方法可能在相对较低的计算资源下就能够运行,因此更适合于资源受限的环境或者嵌入式系统中的应用。

应用领域:

人工智能大模型在自然语言处理、计算机视觉等领域取得了巨大成功,例如在语言生成、翻译、图像识别等任务中表现出色。一系列基于大模型的人工智能应用已经问世,如ChatGPT和“文心一言”等,这些应用已经在社会生产、生活方面产生了广泛影响。传统的人工智能方法可能更适用于一些特定的任务或者领域,例如基于规则的系统在专家系统、推荐系统等方面有所应用。

综上所述,人工智能大模型与传统的人工智能方法相比,在技术基础、数据需求、模型复杂性、应用领域以及计算资源需求等方面存在明显的差异,是从泛用到专长的技术演进。人工智能大模型借助于深度学习技术的发展,在自然语言处理、计算机视觉等领域取得了巨大的进展和成功,成为当今人工智能领域的重要发展方向之一。

PART 04

跨界融合赋能千行百业

应用增长维持强劲态势

国家数据局局长刘烈宏此前公开介绍,中国10亿参数规模以上的大模型数量已超100个,行业大模型深度赋能电子信息、医疗、交通等领域,形成上百种应用模式,赋能千行百业。

中国信息通信研究院数据显示,2023年我国人工智能核心产业规模达5787亿元,相关企业数量达 4482家。人工智能产业链已覆盖芯片、算法、数据、平台、应用等上下游关键环节。

图片

2024中国人工智能多模态大模型20强企业模型应用场景(数据来源:赛迪智库)

目前国内大模型处于百花齐放的状态,以百度、阿里、腾讯、华为为代表的科技巨头,科大讯飞、智谱AI、商汤科技等AI公司,三大运营商,以及智源研究院、中科院等学术研究机构都纷纷投身AI大模型浪潮。根据中国科学技术信息研究院2023年5月发布的《中国人工智能大模型地图研究报告》,我国参数规模在10亿以上的大模型数达79个,数量在全球排名仅次于美国。这些大模型在地理上分布较广,14个省市地区都有开展大模型研究,其中北京和广东最多,北京有38个大模型,广东有20个大模型。

广东省还拥有一大批新一代信息技术产业集聚区,建设了鹏城云脑Ⅱ、横琴先进智能计算两大人工智能算力平台,打造了鹏城实验室、琶洲实验室等省实验室,成立了广州人工智能与先进计算、广东智能无人系统、广东琴智科技等高水平创新研究院,组建了16家广东省新一代人工智能开放创新平台。

PART 05

推动建设核心应用场景

加速牵引技术落地转化

从短期来看,人工智能大模型已在日常办公、文本创作、图像视频生成、客服问答等领域展现较大发展潜力和应用价值。从长期来看,人工智能大模型与制造、生物医药、能源、交通等实体经济领域深度融合,不断提升创新效率、拓展应用领域、提高生产效率,是各行业转型升级的基础赋能工具,已成为塑造未来的科技巨擘。

然而,我们也应看到人工智能大模型技术发展中存在的挑战和问题。目前市面上缺乏高质量公开的数据集,比如政务、医疗、智慧城市等领域数据获取难度大、隐私性要求高,大模型厂商无法迭代准确面向行业落地场景训练大模型,而多数行业数据丰富的企业又缺乏自研大模型的能力,严重掣肘行业模型研发和应用落地。此外,当前人工智能大模型应用还存在“蹭热度”和同质化情况,只是将大模型与传统AI模型简单替换,未能体现场景对大模型的刚需,难以带来实际经济效益。

为了促进人工智能大模型技术的深入发展及其健康可持续的应用,需要加快创新应用场景建设,牵引成果落地应用。鼓励行业龙头企业依托业务场景和数据,通过开展行业大赛、接班挂帅等形式,引导行业用户向大模型厂商开放有价值的核心业务场景,整合行业数据,开展大模型应用试点,为大模型技术落地转化提供“试验场”。

展望未来,人工智能大模型将继续引领科技发展的方向,塑造全新科技纪元。让我们共同期待人工智能大模型在未来带来的更多惊喜和变革!

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/20043.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

蓝桥杯--LCA1

树上前缀和LCA 暴力做法&#xff1a; 我们先把不删的sum维护出来&#xff0c;然后遍历跳过的点&#xff0c;假如a1,a2,a3&#xff0c;跳过2&#xff0c;那么答案就是sum-cost(a1,a2)-cost(a2,a3)cost(a1,a3). DFS暴力&#xff0c;下面是代码&#xff1a; #include<bits/s…

【Unity脚本】使用脚本操作游戏对象的组件

【知识链】Unity -> Unity脚本 -> 游戏对象 -> 组件 【知识链】Unity -> Unity界面 -> Inspector【摘要】本文介绍如何使用脚本添加、删除组件&#xff0c;以及如何访问组件 文章目录 引言第一章 游戏对象与组件1.1什么是组件&#xff1f;1.2 场景、游戏对象与组…

php使用openssl返回false报错0308010C

本地php使用openssl返回false, 但是在服务器上测试正常openssl_encrypt($jsonStr, DES-ECB, $key, OPENSSL_RAW_DATA, ); 查看错误 openssl_error_string(); error:0308010C:digital envelope routines::unsupported 原因是: 服务器上的openssl是1.1版本, 本地是3.0版本 通…

C++回调函数

#include <iostream> #include <functional> // 为了使用 std::function // 声明一个回调函数类型 typedef std::function<void()> Callback11;// 调用函数&#xff0c;它接受一个回调函数作为参数 void process(Callback11 callback123) {// 在这里执…

直播领域新宠—第三代大模型无人直播系统:提升销售业绩的秘密武器

随着科技的飞速发展和人们对智能化生活的追求&#xff0c;直播领域也迎来了革新性的突破。第三代大模型无人直播系统&#xff0c;作为直播领域的新宠&#xff0c;正以其独特的魅力和优势&#xff0c;成为提升销售业绩的秘密武器。 首先&#xff0c;第三代大模型无人直播系统具…

2024山软创新实训:软件系统架构

软件架构 本文着重介绍本应用&#xff1a;基于开源LLM的易学大模型软件系统的架构。在经过2个月的探索、选型、实验、开发后&#xff0c;我们团队终于把整个系统的各块拼图搭建了起来&#xff0c;现在剩下的是集成、评测、优化和部署的工作。 1. Distributed System 整个项目…

【Android】

hint在text显示提示内容 设置主键&#xff0c;在mainactivity // 获取SharedPreferences对象存放的用户名和密码&#xff0c;并设为相应组件的值 //指定key的值&#xff0c;及获取不到值时使用的默认值 String sName sp.getString("name", "unknown")…

媲美苹果、三星uwb芯片,飞睿智能UWB SIP芯片方案,创新无线传输、测距、精准定位新纪元

超宽带&#xff08;UWB&#xff09;技术作为一种新兴的无线通信技术&#xff0c;以其高精度定位、低功耗、高安全性和强抗干扰能力等优势&#xff0c;在全球范围内得到了广泛关注和快速应用。 2019 年&#xff0c;苹果iPhone11搭载UWB芯片&#xff0c;火极一时的AirDrop隔空投…

MODIS L1B数据规格介绍

1.MODIS 仪器概述 MODIS是EOS AM-1系列卫星的主要探测仪器&#xff0c;也是EOS Terra平台上唯一进行直接广播的对地观测仪器。MODIS是当前世界上新一代“图谱合一”的光学遥感仪器&#xff0c;具有36个光谱通道&#xff0c;分布在0.4-14um的电磁波谱范围内&#xff0c;波段范围…

Docker Hub 国内镜像源配置

Docker Hub 国内镜像源配置 Docker Hub 国内镜像源是指在国内境内提供 Docker 镜像服务的镜像源。由于国际网络带宽等问题&#xff0c;国内用户下载 Docker 镜像通常速度较慢。因此&#xff0c;为了解决这个问题&#xff0c;一些国内的公司和组织提供了 Docker 镜像的国内镜像…

MySQL--MHA高可用及读写分离

一、什么是高可用 1.企业级高可用标准&#xff1a;全年无故障时间 全年无故障时间全年故障时间具体时间99.9%0.1%525.6 minkeeplive双主 &#xff08;切换需要人为干预&#xff09;99.99%0.01%52.56 minMHA &#xff08;半自动化&#xff09;99.999%0.001%5.256 minPXC、MGR、…

解决3D模型变黑及贴图不显示的问题---模大狮模型网

在3D建模和渲染过程中&#xff0c;模型变黑或贴图不显示是常见的挑战之一。这不仅影响了模型的视觉效果&#xff0c;还可能导致后续的工作流程受阻。本文将针对这两个问题&#xff0c;提供详细的解决方法和步骤&#xff0c;帮助读者快速有效地解决问题。 一、检查并调整光照设置…

Day 8:1461. 检查一个字符串是否包含所有长度为 K 的二进制子串

Leetcode 1461. 检查一个字符串是否包含所有长度为 K 的二进制子串 给你一个二进制字符串 s 和一个整数 k 。如果所有长度为 k 的二进制字符串都是 s 的子串&#xff0c;请返回 true &#xff0c;否则请返回 false 。 截取每个长度为 k 的字符串&#xff0c;加入 Set 中&#x…

根据状态转移图实现时序电路 (三段式状态机)

看图编程 * ** 代码 module seq_circuit(input C ,input clk ,input rst_n,output wire Y ); reg [1:0] current_stage ; reg [1:0] next_stage ; reg Y_reg; //输出//第一段 &#xff1a; 初始化当前状态和…

汇总区间,合并区间

题目一&#xff1a; 代码如下&#xff1a; vector<string> summaryRanges(vector<int>& nums) {vector<string> ret;if (nums.size() 0)return ret;int n nums.size();int i 0;while (i < n){int prev i;i;while (i < n && nums[i] n…

烧脑的逻辑图又来了,精力绝对不是花费在做图上。

逻辑图设计之所以比较耗费精力&#xff0c;主要是因为它需要进行深入的思考和分析&#xff0c;以确保设计的逻辑正确、完整和可行。以下是一些可能导致逻辑图设计耗费精力的原因&#xff1a; 复杂性&#xff1a;逻辑图设计通常涉及到复杂的业务流程和系统架构。设计师需要理解各…

Spring boot 集成thymeleaf

Spring boot 集成thymeleaf 背景 自己通过Spring boot集成通义千问实现了一个智能问答系统。Spring boot集成通义千问已经完成&#xff0c;现在需要做一个简单的页面展示&#xff0c;作为一个八年没有摸过前端的后端开发人员&#xff0c;不得不又拿起了html和thymeleaf。 Sp…

用例与系统顺序图

习题 问题 考察点 1.Use Cases 用例绘制 列出8个Use Cases, 按优先权分成三个档次, 并分别用Fully dressed、Causual和Brief方式描述 建议:用Fully dressed方式描述的Use Cases应该是项目比较核心,而且需要尽快研制的功能模块;该功能模块的内容比较充实;不要采用如登陆验…

摘下戛纳大奖的《狗阵》,救得了华谊吗?

随着第77届戛纳国际电影节成功落幕&#xff0c;《狗阵》无疑成为了华语电影的最大赢家。 今年的戛纳电影节可以说是华语电影大年&#xff0c;《风流一代》《狗阵》《酱园弄》《九龙城寨之围城》等多部重量级影片亮相戛纳。 但最终抱得奖项而归的只有管虎导演的《狗阵》&#…

appium元素定位工具_uiautomatorviewer.bat

特点&#xff1a; uiautomatorviewer是android-sdk自带的元素定位工具uiautomatorviewer只能用于安卓系统&#xff1b;它是通过截屏分析XML布局文件方式&#xff0c;来提供控件信息的查看服务 uiautomatorviewer.bat 基本使用 路径&#xff1a;这个工具是Android SDK中自带&…