【码银送书第十三期】《ChatGPT原理与架构》

OpenAI 在 2022 年 11 月推出了人工智能聊天应用—ChatGPT。它具有广泛的应用场景,在多项专业和学术基准测试中表现出的智力水平,不仅接近甚至有时超越了人类的平均水平。这使得 ChatGPT 在推出之初就受到广大用户的欢迎,被科技界誉为人工智能领域的新里程碑。

 

人们在为生成式人工智能所带来的多模态内容创作效率的提升而欢呼时,常常低估ChatGPT的推理能力。这种能力使ChatGPT不仅能作为新一代人机交互的核心,还能作为智能代理来构建自动化和半自动化的工作流程,甚至使它能与工业控制或机器人领域相结合,引发深刻的社会变革。

 

许多人低估了这种变革的影响力。以当前研发和商业应用的迭代速度来看,预计在未来三至五年内,这种变革将逐渐渗透到人类生活和生产的各个方面,极大地提升现有的生产力。若要追溯上一个被称为“巨大技术变革”的时代,很多人都会毫不犹豫地说是互联网开创期。这次变革也将重塑内容生产相关的商业模式,改变现有的工作方式,甚至推动生产方式的变革。当然,这还需要依赖下一代大语言模型在内容输出的可控性方面的突破。

 

e84046f81400378217422f708bdb8d3f.png

ChatGPT原理与架构:

大模型的预训练、迁移和中间件编程

程戈 著

大模型领域技术专家和布道者实践经验总结

阿里、Google等企业多位大模型技术专家联袂推荐

 

 

内容简介

这是一本深入阐述ChatGPT等大模型的工作原理、运行机制、架构设计和底层技术,以及预训练、迁移、微调和中间件编程的著作。它将帮助我们从理论角度全面理解大模型,从实践角度更好地应用大模型,是作者成功训练并部署大模型的过程复盘和经验总结。

第1章介绍了ChatGPT等大模型的发展历程、技术演化和技术栈等基础知识;
第2~5章深入讲解了Transformer的架构原理,并从GPT-1的生成式预训练到GPT-3的稀疏注意力机制详细描述了GPT系列的架构演进;
第6~8章从底层技术实现的角度讲解了大模型的训练策略、数据处理方法,以及如何利用策略优化和人类反馈来进一步提升模型的表现;
第9~10章首先详细讲解了大模型在垂直领域的低算力迁移方法,并给出了医疗和司法领域的迁移案例,然后讲解了大模型的中间件编程;
第11章对GPT的未来发展趋势进行预测,探讨数据资源、自回归模型的局限性,以及大模型时代具身智能的可行路线。

 

作者简介

 

程戈
      博士生导师,湘潭大学计算机学院·网络空间安全学院教授,湘潭大学技术转移中心副主任,湘潭市京东智能城市与大数据研究院副院长,智慧司法与数字治理湖南省重点实验室副主任,CCF计算法学会执委。

      大模型领域技术专家和布道者,作为两项科技部国家重点研发子课题的负责人,与成都数之联等多家企业合作推动人工智能在司法领域的落地,带领团队开发了JusticeGPT司法大模型,不同于其他的以提升司法领域知识问答能力为核心的司法大模型,该大模型致力于提升司法文献检索增强生成以及司法文档的多跳信息聚合能力,并通过特定的多任务表征与控制指令生成框架重构司法信息化系统的业务中台,实现司法业务编排以及工作流自动化。

      连续创业者,先后创立湘潭安道致胜信息科技有限公司等多家企业,曾经作为共同创始人加盟美国WiFi Free llc. ,开发了WiFi Free、WiFi Analyzer?等项目,其中WiFi Free在2014到2015年是Google Play市场相关WiFi分享类应用下载的前三名。作为技术顾问,先后服务于北京捷通华声等多家企业,提供知识表示学习的技术解决方案,为某知名私募开发了基于深度学习的股票趋势预测系统,成为该私募公司的主要量化工具。  

 

专家推荐

 

作者结合科研和实践经验,用朴实无华的语言,扎实、严谨地剖析了ChatGPT的技术原理和大模型的关键技术。全书内容丰富翔实,图文并茂,任何想要真正理解ChatGPT的读者,都会从本书中获益匪浅,深刻领会这项里程碑式的技术成果。
—— 陈峰 北京滴普科技有限公司合伙人&《ClickHouse性能之巅》作者


创业不易,比较幸运的是,我在北大做研究时,和团队一起成功地开发了ChatLaw——国内首个在法律领域应用的大模型。本书的作者和团队也成功训练出法律行业的大模型,这本书分享了他们的成功经验。如果你对类似ChatGPT大模型的训练感兴趣,那么本书将是你不容错过的力作。
—— 崔家熙 ChatLaw


本书不仅能让你站在巨人的肩膀上俯瞰大语言模型的全貌,还带领你深入洞察其背后的原理与架构设计。不仅是一本理论与实践并重的参考书,更是一部引领人工智能领域创新发展的启示录。它将为你揭示大语言模型如何改变我们的生活,并展示如何在这一领域挖掘无限可能。
—— 黄剑 Google工程师/抖音“剑哥聊技术”博主(仅代表个人观点,与任何公司无关)


本书系统地剖析了支撑ChatGPT的关键技术,包括Transformer模型、注意力机制、生成式预训练等理论基础,以及模型优化、低算力部署、人机交互等关键问题。全书内容丰富翔实,图文并茂,任何想要真正理解ChatGPT的读者都能从中获益。作者结合科研和实践经验,用平实的语言娓娓道来,让这个高深的主题变得触手可及。
—— 刘聪 南京云问科技首席算法架构师/知乎博主:@刘聪NLP/《ChatGPT原理与实践》作者


这是一本细致入微地剖析ChatGPT内在技术原理的佳作。内容严谨,结构清晰,层层深入地剖析了大语言模型背后的关键技术,如Transformer、注意力机制、生成式预训练等。这是一本质量上乘的技术专著,它不仅系统全面,而且深入浅出,将ChatGPT这一复杂系统娓娓道来,让读者获益匪浅。
—— 刘树春 阿里巴巴高级算法专家

对于任何渴望深入了解大语言模型的人来说,本书是一本无价之宝。它是进入大语言模型训练和微调世界的敲门砖,同时也是您在人工智能领域取得成就的助推器。通过本书,您将掌握大语言模型的工作原理、技术挑战与发展趋势,从而为自己在人工智能时代的角色定位提供有力支持。
—— 占冰强 AIGCLINK发起人/行行AI合伙人

 

读者对象

 

  • 人工智能领域的产品经理。对于希望在自家产品中引入AI功能的产品经理来说,了解ChatGPT等大语言模型的基本原理和运行机制是至关重要的。从本书中,他们可以学习大语言模型的设计思想、构造方式,以及如何将这些模型整合到产品中去。他们也可以借此更好地理解产品的性能瓶颈,从而进行更为精确的产品规划。

  • 人工智能相关专业的研究人员。AI研究者可以将本书作为一本深入了解大语言模型的教科书。无论是Transformer模型的细节,还是GPT模型训练和优化的技巧,书中都进行了详细的介绍。更重要的是,书中还探讨了一些最前沿的研究领域,比如人类反馈强化学习、指令自举标注算法等。

  • 大规模数据处理和分析的工程师。对于面临如何高效处理大规模数据、如何构建分布式训练架构等问题的工程师来说,本书可以提供许多宝贵的建议和思路。例如,第6章对数据处理和分布式训练模式进行了深入的讨论。

  • AI技术的爱好者和使用者。如果你是一个AI技术的爱好者,或者是一个善于运用技术改善生活的人,本书同样适合你。书中对大语言模型的介绍通俗易懂,可以让你对这个强大的技术有个全面的了解。此外,书中还提供了许多实用的使用技巧和案例,可以将它们直接应用到你的生活或工作中去。

 

 

直播预告

 

3月7日周四19:00,大模型领域技术专家,湖南国家应用数学中心副主任,湘潭市京东智能城市与大数据研究院副院长,湘潭大学计算机学院.网络空间学院教授 程戈老师与您分享“世界模型改变世界:从GPT到Sora”,点击预约观看!

 

将在03月07日 19:00 直播

7e984c0de8cc4f1fae689fe61c0376c5.jpeg

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/723158.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在Mac上安装nginx+rtmp 本地服务器

需要使用终端命令,如果没有Homebrew,要安装Homebrew,执行: ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" 一、安装Nginx 1、先clone Nginx项目到本地: brew tap de…

20240305-2-海量数据处理常用技术概述

海量数据处理常用技术概述 如今互联网产生的数据量已经达到PB级别,如何在数据量不断增大的情况下,依然保证快速的检索或者更新数据,是我们面临的问题。 所谓海量数据处理,是指基于海量数据的存储、处理和操作等。因为数据量太大无…

js SheetJS 合并表格导出到同一个excel中

最近有个需求,我在一个页面显示了4个表格, 然后合并导出到excel文件中 四个表,四个sheet,一个excel文件 最后导出时这样: 实现: 1,页面有个导出的checkbox,勾选则导出,不勾选不处理 2,在一个函数中,集中处理四个表数据获取,并将结果返回出来 //获取数据后返回为…

bun 单元测试

bun test Bun 附带了一个快速、内置、兼容 Jest 的测试运行程序。测试使用 Bun 运行时执行,并支持以下功能。 TypeScript 和 JSX生命周期 hooks快照测试UI 和 DOM 测试使用 --watch 的监视模式使用 --preload 预加载脚本 Bun 旨在与 Jest 兼容,但并非所…

Linux搭建SFTP服务器

案例:搭建SFTP服务器 SFTP(SSH文件传输协议) SFTP(SSH文件传输协议)是一种安全的文件传输协议,用于在计算机之间传输文件。它基于SSH(安全外壳协议)的子系统,提供了加密的…

1908_Arm Cortex-M3的实现

1908_Arm Cortex-M3的实现 全部学习汇总: g_arm_cores: ARM内核的学习笔记 (gitee.com) 这是第一次看一份这样的手册,之前的MCU编程基本上就是专注于软件接口方面。而OS等方面的一些功能基本上都是用了现成的解决方案,因此也就没有过多的关注…

git合并多次提交

简介 Git是一个分布式版本控制系统,它允许开发人员在不同的分支上进行并行开发,并将这些分支合并到主分支或其他分支中。在开发过程中,我们经常会创建多个commit来记录每次的代码变更。有时候我们希望将这些连续的commit合并为一个更有意义的…

CSS实现选中卡片样式操作

图一默认自动选中&#xff0c;并且不可取消选中&#xff0c;当选择其他卡片才可点击下一步 在 “ src/assets ” 路径下存放 save.png&#xff0c;代表选中的状态 <div class"cards"><ul class"container"><li v-for"image in image…

【前端系列】vue

这里写目录标题 一、Vue简介1.1 主流前端框架/库简介 二、下载和安装Vue2.1 下载2.2 安装完成后&#xff0c;检查2.3创建全局安装目录和缓存日志目录2.4 为了下载包快速&#xff0c;改源为淘宝镜像2.5 查看npm配置修改是否成功 三、配置环境变量环境变量—用户变量—选中Path—…

Vue+SpringBoot打造实验报告管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 实验管理模块2.2 实验实例模块2.3 实验批阅模块2.4 实验咨询模块 三、系统展示四、核心代码4.1 查询实验4.2 新增实验咨询4.3 回复实验咨询4.4 新增实验实例4.5 查询实验实例 五、免责说明 一、摘要 1.1 项目介绍 基于…

【学习笔记】卫星基础知识

一、什么是卫星以及它如何工作&#xff1f; 通信卫星是一种人造卫星&#xff0c;通过使用转发器在源和接收器之间中继和放大无线电电信信号。卫星的工作原理是接收从地球发送的无线电信号并将无线电信号重新发送回地球。卫星使用从大型太阳能电池阵列收集的太阳能&#xff0c;…

HTML标签分类,web微信开发者工具

第一个阶段&#xff0c;开发环境和工具准备 浏览器 &#xff08;Google&#xff0c;FireFox&#xff0c;…&#xff09;下载&#xff0c;安装前端开发工具vscode&#xff0c;下载、安装 node、npm、webpack、webpack-cli、cnpm&#xff0c;配置前端开发环境下载、配置PHP和MyS…

Centos安装Jenkins

1、更新系统 &#xff08;1&#xff09;更新下系统 sudo yum -y update 安装用于下载java 17二进制文件的wget命令行工具 sudo yum -y install wget vim 2、卸载centos自带的jdk 由于我们安装的版本比较高&#xff0c;需要jdk17&#xff0c;卸载centos自带的jdk。用 下面的…

【vue/组件封装】封装一个带条件筛选的搜索框组件(多组条件思路、可多选)详细流程

引入&#xff1a;实现一个带有筛选功能的搜索框&#xff0c;封装成组件&#xff1b; 搜索框长这样子&#xff1a; 点击右侧筛选图标后弹出层&#xff0c;长这样子&#xff1a; 实际应用中有多组筛选条件&#xff0c;这里为了举栗子就展示一组&#xff1b; 预览&#xff1a;…

07-prometheus的自定义监控-pushgateway工具组件

一、概述 pushgateway用于自定义监控节点、节点中服务的工具&#xff0c;用户可以通过自定义的命令获取数据&#xff0c;并将数据推送给pushgateway中&#xff1b; prometheus服务&#xff0c;从pushgateway中获取监控数据&#xff1b; 二、部署pushgateway 我们可以“随便”找…

Pytorch学习 day03(Tensorboard、Transforms)

Tensorboard Tensorboard能够可视化loss的变化过程&#xff0c;便于我们查看模型的训练状态&#xff0c;也能查看模型当前的输入和输出结果 在Pycharm中&#xff0c;可以通过按住ctrl&#xff0c;并左键点击某个库来进入源文件查看该库的使用方法SummaryWriter是用来向log_dir…

【数据结构】顺序表+链表

目录 1.顺序表 1.1初始化顺序表 1.2销毁顺序表 1.3检查容量并扩容 1.4把某个元素插入到下标为pos的位置 1.5头插和尾插 1.6删除下标为pos的元素 1.7头删和尾删 2.顺序表的问题及思考 3.链表 3.1链表的访问 3.2链表的增删查改 1.顺序表 顺序表的本质其实就是一个数组…

Tensorflow2.0笔记 - 计算梯度

本笔记主要记录tf.GradientTape和tf.gradient的用法 import tensorflow as tf import numpy as nptf.__version__#要计算梯度的所有参数计算过程必须放到gradient tape中 #with tf.GradientTape as tape: w tf.constant(1.) x tf.constant(2.)with tf.GradientTape() as tap…

惯性导航 | 测量方程中的噪声模型与离散时间噪声模型

惯性导航 | 测量方程中的噪声模型与离散时间噪声模型 IMU测量方程中的噪声模型IMU的离散时间噪声模型 IMU测量方程中的噪声模型 在大多数系统中&#xff0c;IMU的噪声由两部分组成&#xff1a;测量噪声&#xff08;Measurement Nosie&#xff09;与零偏&#xff08;Bias&#…

1.1_3 性能指标——时延、时延带宽积、往返时间RTT、利用率

文章目录 1.1_3 性能指标——时延、时延带宽积、往返时间RTT、利用率&#xff08;一&#xff09;时延&#xff08;二&#xff09;时延带宽积&#xff08;三&#xff09;往返时延RTT&#xff08;四&#xff09;利用率 1.1_3 性能指标——时延、时延带宽积、往返时间RTT、利用率 …