一本书讲透ChatGPT,实现从理论到实践的跨越!大模型技术工程师必读书籍【送书活动】

目录

  • 前言
  • 一、内容简介
  • 二、作者简介
  • 三、专家推荐
  • 四、读者对象
  • 五、目录
  • 福利
  • 总结


前言

OpenAI 在 2022 年 11 月推出了人工智能聊天应用—ChatGPT。它具有广泛的应用场景,在多项专业和学术基准测试中表现出的智力水平,不仅接近甚至有时超越了人类的平均水平。这使得 ChatGPT 在推出之初就受到广大用户的欢迎,被科技界誉为人工智能领域的新里程碑。 人们在为生成式人工智能所带来的多模态内容创作效率的提升而欢呼时,常常低估ChatGPT的推理能力。这种能力使ChatGPT不仅能作为新一代人机交互的核心,还能作为智能代理来构建自动化和半自动化的工作流程,甚至使它能与工业控制或机器人领域相结合,引发深刻的社会变革。 许多人低估了这种变革的影响力。以当前研发和商业应用的迭代速度来看,预计在未来三至五年内,这种变革将逐渐渗透到人类生活和生产的各个方面,极大地提升现有的生产力。若要追溯上一个被称为“巨大技术变革”的时代,很多人都会毫不犹豫地说是互联网开创期。这次变革也将重塑内容生产相关的商业模式,改变现有的工作方式,甚至推动生产方式的变革。当然,这还需要依赖下一代大语言模型在内容输出的可控性方面的突破。

一、内容简介

在这里插入图片描述
限时五折购买链接:https://item.jd.com/14316580.html

这是一本深入阐述ChatGPT等大模型的工作原理、运行机制、架构设计和底层技术,以及预训练、迁移、微调和中间件编程的著作。它将帮助我们从理论角度全面理解大模型,从实践角度更好地应用大模型,是作者成功训练并部署大模型的过程复盘和经验总结。

具体内容介绍如下

  • 第1章介绍了ChatGPT等大模型的发展历程、技术演化和技术栈等基础知识;
  • 第2~5章深入讲解了Transformer的架构原理,并从GPT-1的生成式预训练到GPT-3的稀疏注意力机制详细描述了GPT系列的架构演进;
  • 第6~8章从底层技术实现的角度讲解了大模型的训练策略、数据处理方法,以及如何利用策略优化和人类反馈来进一步提升模型的表现;
  • 第9~10章首先详细讲解了大模型在垂直领域的低算力迁移方法,并给出了医疗和司法领域的迁移案例,然后讲解了大模型的中间件编程;
  • 第11章对GPT的未来发展趋势进行预测,探讨数据资源、自回归模型的局限性,以及大模型时代具身智能的可行路线。

二、作者简介

程戈

  • 博士生导师,湘潭大学计算机学院·网络空间安全学院教授,湘潭大学技术转移中心副主任,湘潭市京东智能城市与大数据研究院副院长,智慧司法与数字治理湖南省重点实验室副主任,CCF计算法学会执委。
  • 大模型领域技术专家和布道者,作为两项科技部国家重点研发子课题的负责人,与成都数之联等多家企业合作推动人工智能在司法领域的落地,带领团队开发了JusticeGPT司法大模型,不同于其他的以提升司法领域知识问答能力为核心的司法大模型,该大模型致力于提升司法文献检索增强生成以及司法文档的多跳信息聚合能力,并通过特定的多任务表征与控制指令生成框架重构司法信息化系统的业务中台,实现司法业务编排以及工作流自动化。
  • 连续创业者,先后创立湘潭安道致胜信息科技有限公司等多家企业,曾经作为共同创始人加盟美国WiFi Free llc. ,开发了WiFi Free、WiFi Analyzer?等项目,其中WiFi Free在2014到2015年是Google Play市场相关WiFi分享类应用下载的前三名。作为技术顾问,先后服务于北京捷通华声等多家企业,提供知识表示学习的技术解决方案,为某知名私募开发了基于深度学习的股票趋势预测系统,成为该私募公司的主要量化工具。

三、专家推荐

作者结合科研和实践经验,用朴实无华的语言,扎实、严谨地剖析了ChatGPT的技术原理和大模型的关键技术。全书内容丰富翔实,图文并茂,任何想要真正理解ChatGPT的读者,都会从本书中获益匪浅,深刻领会这项里程碑式的技术成果。
—— 陈峰 北京滴普科技有限公司合伙人&《ClickHouse性能之巅》作者

创业不易,比较幸运的是,我在北大做研究时,和团队一起成功地开发了ChatLaw——国内首个在法律领域应用的大模型。本书的作者和团队也成功训练出法律行业的大模型,这本书分享了他们的成功经验。如果你对类似ChatGPT大模型的训练感兴趣,那么本书将是你不容错过的力作。
—— 崔家熙 ChatLaw

本书不仅能让你站在巨人的肩膀上俯瞰大语言模型的全貌,还带领你深入洞察其背后的原理与架构设计。不仅是一本理论与实践并重的参考书,更是一部引领人工智能领域创新发展的启示录。它将为你揭示大语言模型如何改变我们的生活,并展示如何在这一领域挖掘无限可能。
—— 黄剑 Google工程师/抖音“剑哥聊技术”博主(仅代表个人观点,与任何公司无关)

本书系统地剖析了支撑ChatGPT的关键技术,包括Transformer模型、注意力机制、生成式预训练等理论基础,以及模型优化、低算力部署、人机交互等关键问题。全书内容丰富翔实,图文并茂,任何想要真正理解ChatGPT的读者都能从中获益。作者结合科研和实践经验,用平实的语言娓娓道来,让这个高深的主题变得触手可及。
—— 刘聪 南京云问科技首席算法架构师/知乎博主:@刘聪NLP/《ChatGPT原理与实践》作者

这是一本细致入微地剖析ChatGPT内在技术原理的佳作。内容严谨,结构清晰,层层深入地剖析了大语言模型背后的关键技术,如Transformer、注意力机制、生成式预训练等。这是一本质量上乘的技术专著,它不仅系统全面,而且深入浅出,将ChatGPT这一复杂系统娓娓道来,让读者获益匪浅。
—— 刘树春 阿里巴巴高级算法专家

对于任何渴望深入了解大语言模型的人来说,本书是一本无价之宝。它是进入大语言模型训练和微调世界的敲门砖,同时也是您在人工智能领域取得成就的助推器。通过本书,您将掌握大语言模型的工作原理、技术挑战与发展趋势,从而为自己在人工智能时代的角色定位提供有力支持。
—— 占冰强 AIGCLINK发起人/行行AI合伙人

四、读者对象

  1. 人工智能领域的产品经理。对于希望在自家产品中引入AI功能的产品经理来说,了解ChatGPT等大语言模型的基本原理和运行机制是至关重要的。从本书中,他们可以学习大语言模型的设计思想、构造方式,以及如何将这些模型整合到产品中去。他们也可以借此更好地理解产品的性能瓶颈,从而进行更为精确的产品规划。

  2. 人工智能相关专业的研究人员。AI研究者可以将本书作为一本深入了解大语言模型的教科书。无论是Transformer模型的细节,还是GPT模型训练和优化的技巧,书中都进行了详细的介绍。更重要的是,书中还探讨了一些最前沿的研究领域,比如人类反馈强化学习、指令自举标注算法等。

  3. 大规模数据处理和分析的工程师。对于面临如何高效处理大规模数据、如何构建分布式训练架构等问题的工程师来说,本书可以提供许多宝贵的建议和思路。例如,第6章对数据处理和分布式训练模式进行了深入的讨论。

  4. AI技术的爱好者和使用者。如果你是一个AI技术的爱好者,或者是一个善于运用技术改善生活的人,本书同样适合你。书中对大语言模型的介绍通俗易懂,可以让你对这个强大的技术有个全面的了解。此外,书中还提供了许多实用的使用技巧和案例,可以将它们直接应用到你的生活或工作中去。

五、目录

第1章 人工智能的新里程碑——ChatGPT / 1
1.1 ChatGPT的发展历程 / 1
1.2 ChatGPT的能力 / 3
1.3 大语言模型的技术演化 / 6
1.3.1 从符号主义到连接主义 / 6
1.3.2 Transformer模型 / 7
1.3.3 无监督预训练 / 10
1.3.4 有监督微调 / 11
1.3.5 人类反馈强化学习 / 11
1.4 大语言模型的技术栈 / 12
1.5 大语言模型带来的影响 / 13
1.6 大语言模型复现的壁垒 / 16
1.6.1 算力瓶颈 / 16
1.6.2 数据瓶颈 / 17
1.6.3 工程瓶颈 / 18
1.7 大语言模型的局限性 / 19
1.8 小结 / 20
第2章 深入理解Transformer模型 / 21
2.1 Transformer模型简介 / 21
2.2 自注意力机制 / 23
2.2.1 自注意力机制的计算过程 / 23
2.2.2 自注意力机制的本质 / 26
2.2.3 自注意力机制的优势与局限性 / 28
2.3 多头注意力机制 / 29
2.3.1 多头注意力机制的实现 / 29
2.3.2 多头注意力机制的作用 / 31
2.3.3 多头注意力机制的优化 / 32
2.4 前馈神经网络 / 33
2.5 残差连接 / 35
2.6 层归一化 / 36
2.7 位置编码 / 38
2.7.1 位置编码的设计与实现 / 38
2.7.2 位置编码的变体 / 40
2.7.3 位置编码的优势与局限性 / 41
2.8 训练与优化 / 41
2.8.1 损失函数 / 41
2.8.2 优化器 / 42
2.8.3 学习率调整策略 / 42
2.8.4 正则化 / 43
2.8.5 其他训练与优化技巧 / 44
2.9 小结 / 46
第3章 生成式预训练 / 47
3.1 生成式预训练简介 / 47
3.2 GPT的模型架构 / 48
3.3 生成式预训练过程 / 50
3.3.1 生成式预训练的目标 / 52
3.3.2 生成式预训练的误差反向传播过程 / 53
3.4 有监督微调 / 55
3.4.1 有监督微调的原理 / 55
3.4.2 有监督微调的特定任务 / 56
3.4.3 有监督微调的步骤 / 58
3.5 小结 / 59
第4章 无监督多任务与零样本学习 / 61
4.1 编码器与解码器 / 61
4.2 GPT-2的模型架构 / 64
4.2.1 层归一化 / 65
4.2.2 正交初始化 / 66
4.2.3 可逆的分词方法 / 67
4.2.4 可学习的相对位置编码 / 71
4.3 无监督多任务 / 72
4.4 多任务学习与零样本学习的关系 / 74
4.5 GPT-2的自回归生成过程 / 76
4.5.1 子词单元嵌入 / 76
4.5.2 自回归过程 / 77
4.6 小结 / 79
第5章 稀疏注意力与基于内容的学习 / 80
5.1 GPT-3的模型架构 / 81
5.2 稀疏注意力模式 / 83
5.2.1 Sparse Transformer的特点 / 83
5.2.2 局部带状注意力 / 85
5.2.3 跨层稀疏连接 / 85
5.3 元学习和基于内容的学习 / 86
5.3.1 元学习 / 87
5.3.2 基于内容的学习 / 87
5.4 概念分布的贝叶斯推断 / 90
5.4.1 隐式微调 / 90
5.4.2 贝叶斯推断 / 93
5.5 思维链的推理能力 / 95
5.6 小结 / 99
第6章 大语言模型的预训练
策略 / 100
6.1 预训练数据集 / 100
6.2 预训练数据的处理 / 102
6.3 分布式训练模式 / 104
6.3.1 数据并行 / 105
6.3.2 模型并行 / 106
6.4 分布式训练的技术路线 / 110
6.4.1 Pathways / 111
6.4.2 Megatron-LM / 113
6.4.3 ZeRO / 116
6.5 训练策略案例 / 120
6.5.1 训练框架 / 120
6.5.2 参数稳定性 / 120
6.5.3 训练设置的调整 / 121
6.5.4 BF16优化 / 121
6.5.5 其他因素 / 122
6.6 小结 / 123
第7章 近端策略优化算法 / 124
7.1 传统的策略梯度方法 / 125
7.1.1 策略梯度方法的基本原理 / 125
7.1.2 重要性采样 / 127
7.1.3 优势函数 / 128
7.2 Actor-Critic算法 / 129
7.2.1 Actor-Critic算法的基本步骤 / 130
7.2.2 值函数与策略更新 / 131
7.2.3 Actor-Critic算法的问题与挑战 / 131
7.3 信任域策略优化算法 / 132
7.3.1 TRPO算法的目标 / 132
7.3.2 TRPO算法的局限性 / 133
7.4 PPO算法的原理 / 134
7.5 小结 / 137
第8章 人类反馈强化学习 / 138
8.1 强化学习在ChatGPT迭代中的作用 / 138
8.2 InstructGPT训练数据集 / 140
8.2.1 微调数据集的来源 / 141
8.2.2 标注标准 / 142
8.2.3 数据分析 / 143
8.3 人类反馈强化学习的训练阶段 / 145
8.3.1 有监督微调阶段 / 145
8.3.2 奖励建模阶段 / 147
8.3.3 强化学习阶段 / 148
8.4 奖励建模算法 / 149
8.4.1 算法思想 / 149
8.4.2 损失函数 / 150
8.5 PPO算法在InstructGPT中的应用 / 151
8.6 多轮对话能力 / 153
8.7 人类反馈强化学习的必要性 / 154
8.8 小结 / 156
第9章 大语言模型的低算力领域迁移 / 157
9.1 指令自举标注 / 157
9.2 人工智能反馈 / 161
9.3 低秩自适应 / 163
9.3.1 模型训练与部署 / 164
9.3.2 秩的选择 / 165
9.4 量化:降低部署的算力要求 / 166
9.5 SparseGPT剪枝算法 / 168
9.6 开源大语言模型的低算力迁移案例 / 170
9.6.1 基座模型 / 170
9.6.2 自举指令微调的羊驼系列 / 171
9.6.3 中文解决方案 / 172
9.6.4 医疗领域的迁移实例 / 174
9.6.5 司法领域的迁移实例 / 175
9.7 小结 / 178
第10章 中间件编程 / 180
10.1 补齐短板—LangChain恰逢
其时 / 180
10.2 多模态融合中间件 / 184
10.2.1 任务规划 / 185
10.2.2 模型选择 / 187
10.2.3 任务执行 / 188
10.2.4 响应生成 / 189
10.3 AutoGPT自主代理与任务
规划 / 189
10.4 中间件框架的竞品 / 192
10.5 小结 / 194
第11章 大语言模型的未来
之路 / 195
11.1 强人工智能之路 / 195
11.2 数据资源枯竭 / 198
11.3 自回归模型的局限性 / 200
11.4 具身智能 / 202
11.4.1 具身智能的挑战 / 203
11.4.2 PaLM-E / 204
11.4.3 ChatGPT for Robotics / 205
11.5 小结 / 210

近期直播活动安排如下

在这里插入图片描述

福利

福利(本次活动赠书1-5本,根据阅读量,评论区抽取小伙伴送书)
活动时间: 截止到2024-03-12 20: 00

  • 参与方式: 关注,点赞、收藏本文章,并评论任意文字。
  • 抽奖时间: 2024-03-12 20: 00
  • 公布时间: 2024-03-12 20: 00
  • 通知方式:交流群内公布并且私信通知

总结

好久没来写博客了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/721335.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Docker】Windows11操作系统下安装、使用Docker保姆级教程

【Docker】Windows11操作系统下安装、使用Docker保姆级教程 大家好 我是寸铁👊 总结了一篇【Docker】Windows11操作系统下安装、使用Docker保姆级教程的文章✨ 喜欢的小伙伴可以点点关注 💝 前言 什么是 Docker? Docker 是一个开源平台&…

linux实现远程文件夹共享-samba

目录 问题描述Samba如何挂载常用参数临时挂载实例一种长期挂载方法(已失败,仅供参考)查看挂载取消挂载umount失败 问题描述 我的代码需要访问存在于两个系统(win和linux)的文件夹,我不是文件夹的创建者&am…

STM32基础--什么是寄存器

STM32 长啥样 我使用的芯片是 144pin 的 STM32F103ZET6,具体见图 STM32F103ZET6 实物图。这个就是我们接下来要学习的 STM32,它将带领我们进入嵌入式的殿堂。芯片正面是丝印,ARM 应该是表示该芯片使用的是 ARM 的内核,STM32F103Z…

three.js如何实现简易3D机房?(一)基础准备-上

目录 一、tips 二、功能说明 1.模型初始化 2.功能交互 三、初始化准备 1.目录结构 2.创建三要素 3.创建轨道控制器 4.初始化灯光 5.适配 6.循环渲染 一、tips 1.three.js入门的相关基础性知识就不在此过多赘述了,可以自行提前了解 three.js docs&…

Pytest框架中的测试用例执行方式!

前言 本文将针对pytest的核心特性之一——测试用例的执行方式展开深入探讨,并通过详尽的实战示例展示如何在不同环境下灵活操控测试运行,同时全面解析pytest中常见的且极具实用价值的命令行选项。 一、从基础到进阶:pytest在命令行下的测试用…

苹果电脑专业的Mac垃圾清理工具CleanMyMac X4.14.7

CleanMyMac X是一款专业的Mac清理工具,它具有强大的功能和易用的界面,可以帮助用户快速清理Mac上的无用文件和垃圾,优化系统性能,提升电脑运行速度。 该软件的核心功能包括智能扫描与清理、应用程序管理、隐私保护和系统维护等。…

简单介绍SpeechPrompt、SpeechPrompt V2、SpeechGen

主要介绍SpeechPrompt、SpeechPrompt V2、SpeechGen SpeechPrompt 模型结构和原理(语音到符号) 整体思路:音频特征提取(HuBert/CPC),离散–》deep prompt speechLM(GSLM)—》概率映射–>目标Verbaliz…

代码随想录刷题笔记-Day28

1. 重新安排行程 332. 重新安排行程https://leetcode.cn/problems/reconstruct-itinerary/给你一份航线列表 tickets ,其中 tickets[i] [fromi, toi] 表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。 所有这些机票都属于一个从 JFK(肯…

计算题--时标网络图

时标网络图相当于是双代号网络图和横道图的结合体,特点是多了虚线和波浪线〰️,虚线代表虚工作(只能竖着画),波浪线代表自由时差(横着画)。 在时标网络图中 找关键路径,没有波浪线的…

07_mdioLinux内核模块

01_basicLinux内核模块-CSDN博客文章浏览阅读316次&#xff0c;点赞3次&#xff0c;收藏3次。环境IDubuntuMakefilemodules:clean:basic.creturn 0;运行效果。https://blog.csdn.net/m0_37132481/article/details/136157384my_mdio.c #include <linux/kernel.h> #includ…

【数据结构与算法】深入浅出:单链表的实现和应用

&#x1f331;博客主页&#xff1a;青竹雾色间. &#x1f618;博客制作不易欢迎各位&#x1f44d;点赞⭐收藏➕关注 ✨人生如寄&#xff0c;多忧何为 ✨ 目录 前言 单链表的基本概念 节点 头节点 尾节点 单链表的基本操作 创建单链表 头插法&#xff1a; 尾插法&#…

【数据结构】 简单认识包装类与泛型

文章目录 包装类基本数据类型和对应的包装类拆箱和装箱自动装箱和自动拆箱包装类面试题 什么是泛型为什么要使用泛型泛型类的创建语法泛型类的使用语法示例类型推导(Type Inference) 裸类型(Raw Type)泛型如何编译的擦除机制为什么不能实例化泛型类型数组 泛型的上界语法示例复…

【C语言】Leetcode 876. 链表的中间节点

主页&#xff1a;17_Kevin-CSDN博客 专栏&#xff1a;《Leetcode》 题目 通过题目的要求可以判断出有两种示例要解决&#xff0c;一种是偶数节点的链表&#xff0c;一种是奇数节点的链表&#xff0c;应对这两种情况我们需要使程序对二者都可以兼容。 解决思路 struct ListNode…

03. Nginx入门-Nginx虚拟主机

Nginx虚拟主机简介 yum安装与源码安装一样&#xff0c;只是Nginx配置文件路径不一致&#xff0c;这里用的yum安装的配置文件路径。 利用虚拟主机的功能&#xff0c;可以在一台Nginx服务器上部署一个或多个虚拟主机。 虚拟主机主配置文件 注意&#xff1a;配置完成Nginx主配置…

时间序列数据平稳性检验与随机性分析

1、实验内容: 分析1964年到1999年中国纱产量的时间序列&#xff0c;主要内容包括: (1)、通过图分析时间序列的平稳性&#xff0c;这个方法很直观&#xff0c;但比较粗糙; (2)、通过计算序列的自相关和偏自相关系数&#xff0c;绘出自相关图&#xff0c;根据平稳时间序列的性质分…

splay学习笔记重制版

以前写的学习笔记&#xff1a;传送门 但是之前写的比较杂乱&#xff0c;这里重制一下 问题背景 假设我们要维护一个数据结构&#xff0c;支持插入、删除、查询某个值的排名&#xff0c;查询第 k k k大的值等操作。 最直接的想法是用二叉搜索树&#xff0c;也就是左子树权值&l…

Java实现手机库存管理

一、实验任务 编写一个程序&#xff0c;模拟库存管理系统。该系统主要包括系统首页、商品入库、商品显示和删除商品功能。每个功能的具体要求如下&#xff1a; 1.系统的首页&#xff1a;用于显示系统所有的操作&#xff0c;并且可以选择使用某一个功能。 2.商品入库功能&…

《JAVA与模式》之访问者模式

系列文章目录 文章目录 系列文章目录前言一、分派的概念二、分派的类型三、访问者模式的结构四、访问者模式的优点五、访问者模式的缺点 前言 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网…

ACWing: 730.机器人跳跃问题

二分、递推 #include <iostream> #include <cstring> #include <algorithm> using namespace std;const int N 1e5 10; int h[N] {0};int n,maxh0; // 当 E > maxh 时一定可以满足bool check(int mid){int E mid;for(int i 1;i < n;i){E 2 *…

电商直播大屏是什么?想搞这个怎么做?

随着电商行业的快速发展&#xff0c;直播带货已成为当下最热门的市场营销方式之一。为了更好地掌握直播数据&#xff0c;为企业决策提供有力支持&#xff0c;电商直播数据大屏应运而生。 一、电商直播数据大屏概述 电商直播数据大屏是一种集成了多种数据源的大屏幕可视化展示…