手撸 chatgpt 大模型:简述 LLM 的架构,算法和训练流程

本节我们自顶向下看看大模型的相关概念,了解其基本架构以及从零手撸大模型的基本流程。自从 openai 释放了 chatgpt 后,人工智能就立马进入了大模型时代,我还记得在此之前 NLP 的处理主要依赖于深度学习的 LSTM,GRU 等模型架构。这些模型参数也就在几百万左右,而大模型出来后,原本这些“先进”的 NLP 处理模型一下变成了笑话然后被扫到了历史的垃圾堆里,如今在自然语言处理方面已经不再有这些红极一时的深度学习模型的身影。

大模型首要特点在于“大”。所谓“大”就是模型的参数多。前面我们提到的深度学习模型 LSTM,GRU 等,参数数量在几百万左右,而大模型的参数数量的计量单位是“十亿”,目前已经“落后”的 gpt3 模型上千亿,而大模型中的“小”模型参数数量也在七八十亿左右,目前国内外最新的大模型参数数量也要三四千亿了。第二个“大”在与训练模型的数据量。我记得训练 LSTM 这些模型时,基本上几本电子书的内容即可,而训练大模型,openai 等这些巨头是将所有互联网的公开数据,所有能电子化的书籍,所有可以接触的数据库全都作为训练数据。正是因为他在参数量和训练数据两方面的大才使得大模型在语言和文字方面的生成能力极强。

第二是在架构方面。大模型使用了两种突破性的算法设计,一个叫 transformer 架构,一个叫 attention 机制。正是这两个模块使得大模型在训练上能够实现高并发,同时在输入数据的识别能力上呈现出“进化”级别的提升。我们先简要看看 transformer 架构的基本信息,它最早应用与文本翻译,它包含两个关键模块,一个是编码器,另一个是解码器:

请添加图片描述

在机器翻译时,在编码器输入一句原文,编码器把原文转换为一个向量,这个向量会输入给解码器进行分析,然后我们把对应翻译后目标语言的对应句子前部分输入解码器,训练的目的是让解码器生成下一个单词或字,例如当我们要实现英语翻译成中文,那么 “I love you"对应的句子作为输入到编码器,然后在解码器部分只输入“我爱”,最后我们训练解码器生成最后一个字也就是"爱”。

chatGPT 的架构设计与上面的 transformor 有所不同,因为它只有解码器部分而没有编码部分,基本情况如下:

请添加图片描述
设计成这种模式主要是因为 chatgpt 强调的是文本生成而不是翻译,因此它主要训练生成能力。另一个关键组件是 attention 机制,它相对复杂,我们后面再具体的解析,特别是使用代码实现来了解它。

最后我们看看大模型的基本训练流程:
请添加图片描述
它主要分成两部分,第一个不服就是 train,也就是通过大量的数据训练基础模型,这个基础模型拥有强大的语言理解和生成能力。然后在基础模型上再训练专业模型,例如训练针对法律领域或者是金融领域的大模型,现在业界主要集中在后半部分,因为基础大模型有很多开源或者可以在 hugging face 上直接下载,而大模型真正的商业竞争力在后半部,也就是组织如何将自己专有数据生成专有知识大模型从而提供专业服务或是提升组织内工作者或合作者的生产效率,我们将深入了解这两部分,首先我们将代码设计基础模型,深入查看训练流程和效果。当然我们个人所拥有的资源不足以训练出有效的模型结果,因此我们只集中在算法设计的训练流程的掌握上。然后我们再去使用开源的基础模型深入理解第二部分也就是特定优调的过程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/886448.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

爬虫——JSON数据处理

第三节:JSON数据处理 在爬虫开发中,JSON(JavaScript Object Notation)是最常见的数据格式之一,特别是在从API或动态网页中抓取数据时。JSON格式因其结构简单、可读性强、易于与其他系统交互而广泛应用于前端与后端的数…

AutoUpdater.NET 实现 dotNET应用自动更新

AutoUpdater.NET 是一款用于WPF、Winform软件版本更新的框架,类似框架还有Squirrel、WinSparkle、NetSparkle、Google Omaha。 一、安装AutoUpdater.NET 首先,您需要在项目中安装AutoUpdater.NET库。您可以通过NuGet包管理器来安装它。在Visual Studio中…

鸿蒙实现 web 传值

前言:安卓和 IOS 加载 H5 的时候,都有传值给到 H5 或者接收 H5 值,鸿蒙也可传值和接收 H5 的内容,以下是鸿蒙传值给 H5 端的具体操作 一: 定义好 H5 和鸿蒙传值的方法名,两端必须保持方法名一致 // xxx.ets import …

SpringBoot集成itext导出PDF

添加依赖 <!-- PDF导出 --><dependency><groupId>com.itextpdf</groupId><artifactId>itextpdf</artifactId><version>5.5.11</version></dependency><dependency><groupId>com.itextpdf</groupId>&l…

【快速解决】kafka崩了,重启之后,想继续消费,怎么做?

目录 一、怎么寻找我们关心的主题在崩溃之前消费到了哪里&#xff1f; 1、一个问题&#xff1a; 2、查看消费者消费主题__consumer_offsets 3、一个重要前提&#xff1a;消费时要提交offset 二、指定 Offset 消费 假如遇到kafka崩了&#xff0c;你重启kafka之后&#xff0…

Kotlin深度面试题:协程、密封类和高阶函数

文章目录 知识回顾前言源码分析1.面试题目1&#xff1a;Kotlin中的协程与线程的区别是什么&#xff1f;如何在Android中使用协程进行异步编程&#xff1f;2.面试题目2&#xff1a;Kotlin中的扩展函数和扩展属性是什么&#xff1f;如何在Android开发中使用它们&#xff1f;3. 面…

查询DBA_FREE_SPACE缓慢问题

这个是一个常见的问题&#xff0c;理论上应该也算是一个bug&#xff0c;在oracle10g&#xff0c;到19c&#xff0c;我都曾经遇到过&#xff1b;今天在给两套新建的19C RAC添加监控脚本时&#xff0c;又发现了这个问题&#xff0c;在这里记录一下。 Symptoms 环境&#xff1a;…

【网络安全】网络安全防护体系

1.网络安全防护体系概述 1.1 网络安全的重要性 网络安全是保护网络空间不受恶意攻击、数据泄露和其他安全威胁的关键。随着数字化转型的加速&#xff0c;网络安全的重要性日益凸显&#xff0c;它不仅关系到个人隐私和企业机密的保护&#xff0c;还涉及到国家安全和社会稳定。…

从零开始学习 sg200x 多核开发之 TF 存储卡根文件系统扩容

入式 Linux 镜像制作时&#xff0c;考虑体积等因素&#xff0c;会把根文件系统做的比较小&#xff0c;镜像包较小&#xff0c;方便量产&#xff1b;有时&#xff0c;我们的 tf 或 emmc 的容量较大&#xff0c;烧写镜像后&#xff0c;有较大的空余空间未使用&#xff0c;现尝试把…

【Apache Paimon】-- 1 -- Apache Paimon 是什么?

目录 1、简介 2、概览 3、哪些场景可以使用 Paimon 4、周边生态 5、小结 6、参考 1、简介 我们听说过数据仓库、数据湖、数据湖仓,那你听说过流式数据仓库(Stream warehouse,简称:Streamhouse)吗?那我们今天就来解锁看看他们之中的新秀: Apache paimon 到底是什么…

[实战]SpringBoot使用MongoTemplate存储Float精度丢失问题

问题&#xff1a;使用SpringBoot2.x版本进行MongoDB的存储操作&#xff0c;Float类型数据出现精度丢失问题 解决方案如下&#xff1a; 情况一、字段类型为JSONObject进行存储时 设置值时采用Decimal128类型 Decimal128 value new Decimal128(new BigDecimal(declaredField.g…

Oracle 单机及 RAC 环境 归档模式及路径修改

Oracle 数据库的使用过程中经常会根据需求的不同而调整归档模式&#xff0c;也经常会修改归档文件存放路径。 下面分别演示单机及 RAC 环境下修改归档模式及路径的操作步骤。 一、单机环境 1.查询当前归档模式及路径 SQL> archive log list Database log mode …

用OMS进行 OceanBase 租户间数据迁移的测评

基本概念 OceanBase迁移服务&#xff08;&#xff0c;简称OMS&#xff09;&#xff0c;可以让用户在同构或异构 RDBMS 与OceanBase 数据库之间进行数据交互&#xff0c;支持数据的在线迁移&#xff0c;以及实时增量同步的复制功能。 OMS 提供了可视化的集中管控平台&#xff…

IDEA一键部署SpringBoot项目到服务器

安装Alibaba Cloud Toolkit插件 配置部署环境 1&#xff1a;设置服务名称 2&#xff1a;选择文件上传的类型 3:选择打包之后的jar文件 4: 添加需要上传的服务器信息 5:需要上传到服务器的地址 输入绝对路径 6: 选择上传文件后执行的脚本 可以参考另一篇文章 Linux启…

渗透测试之信息收集 DNS主机发现探测方式NetBIOS 协议发现主机 以及相关PorCheck scanline工具的使用哟

目录 主机发现 利用NetBIOS 协议发现主机 利用TCP/UDP发现主机 PorCheck scanline 利用DNS协议发现主机 主机发现 信息收集中的一项重要工作是发现内网中的主机、数据库、IP段网络设备、安全设备等资产&#xff0c;以便于更快地获取更多权限和密码&#xff0c;更加接近红…

打造专业问答社区:Windows部署Apache Answer结合cpolar实现公网访问

文章目录 前言1. 本地安装Docker2. 本地部署Apache Answer2.1 设置语言选择简体中文2.2 配置数据库2.3 创建配置文件2.4 填写基本信息 3. 如何使用Apache Answer3.1 后台管理3.2 提问与回答3.3 查看主页回答情况 4. 公网远程访问本地 Apache Answer4.1 内网穿透工具安装4.2 创建…

基于java的医院门诊信息管理系统

一、作品包含 源码数据库设计文档万字PPT全套环境和工具资源部署教程 二、项目技术 前端技术&#xff1a;Html、Css、Js、Vue、Element-ui 数据库&#xff1a;MySQL 后端技术&#xff1a;Java、Spring Boot、MyBatis 三、运行环境 开发工具&#xff1a;IDEA/eclipse 数据…

67页PDF |埃森哲_XX集团信息发展规划IT治理优化方案(限免下载)

一、前言 这份报告是埃森哲_XX集团信息发展规划IT治理优化方案&#xff0c;报告中详细阐述了XX集团如何优化IT治理结构以适应新的要求。报告还分析了集团管控模式的变化&#xff0c;提出了六大业务中心的差异化管控策略&#xff0c;并探讨了这些变化对IT治理模式的影响。报告进…

Python基础学习-08字符串

目录 1、常见的字符串表达式 2、字符串函数 3、本节总结 1、常见的字符串表达式 1&#xff09; s “hello” 2&#xff09; s “张三说&#xff1a; \” 你好\”” 3&#xff09; ””” 多行字符串””” 4&#xff09; s1 s2 s1 * 3 5&#xff09; s[i…

ACIS的interop主要有哪些功能

‌ACIS的Interop组件‌主要用于实现不同3D应用程序之间的数据转换和集成。其主要功能包括&#xff1a; ‌数据转换‌&#xff1a;Interop组件能够对市场上流行的3D格式&#xff08;如CATIA V5、CATIA V4、IGES、STEP、VDA-FS、Pro/E、Parasolid、UG、SolidWorks、Inventor和AC…