ChatGPT的底层核心概念

ChatGPT的底层核心概念

1.1 词嵌入

​ 词嵌入是一种将单词或文本转换为数字向量的技术。简单来说,它将自然语言中的词汇转换为计算机可以理解的形式,因为计算机无法直接理解单词或文本。例如,对于句子“The monkey is on the horse",词嵌入技术可以将每个单词转换为一组数字,如下所示:

  • The: [0.1, 0.2, 0.3]
  • monkey: [0.4, 0.5, 0.6]
  • is: [0.7, 0.8, 0.9]
  • on: [0.2, 0.3, 0.4]
  • the: [0.5, 0.6, 0.7]
  • horse: [0.8, 0.9, 1.0]

​ 上述示例中,每个单词用3个数值表示,可以将其理解成三维空间中对应的x、y、z坐标。通过这些坐标,计算机就可以理解和处理每个单词了。

1.2 Transformer

​ Transformer是一种基于自注意力机制的深度学习模型,由Vaswani等人于2017年提出。与传统的RNN和LSTM等循环神经网络相比,Transformer可以并行处理序列中的所有元素,从而提高计算效率。此外,自注意力机制使得Transformer能够捕捉长距离依赖关系,提高模型在处理序列数据时的性能。

​ Transformer主要由编码器和解码器两部分组成。下面通过一个简单的例子来理解它们。

​ 假设我们想让计算机将英文翻译成中文,比如将“I love you“翻译成”我爱你“。这个过程可以分为以下两个步骤。

​ (1)编码器负责理解输入的英文句子。它会将英文句子转换为一种编码形式,捕捉其中的关键信息和语义关系,并将编码后的信息传递给解码器。

​ (2)解码器根据编码器提供的信息,生成对应的中文句子。它会逐个生成中文字词,同时参考编码器提供的信息来确定翻译的准确性。

​ 这里大家可能会有疑问:为什么不直接将输入与输出进行映射呢?借助类似于英汉/汉英词典这样的工具,直接将英文输入映射到中文输出,这种做法有什么问题吗?众所周知,一个英文单词往往会对应多个中文意思,在翻译句子时具体应该采用哪个含义,需要根据上下文来确定,直接映射显然不可取。

1.3 自注意力机制

​ **自注意力机制(self-attention mechanism)**是Transformer架构的核心组成部分。它关注序列中不同位置的信息,以便捕捉这些信息之间的关系。它可以帮助模型理解文本中的上下文关系,以及哪些词与其他词之间的关系更重要。

​ 举个例子,在“The girl went to the store and bought some fruits"这个句子中,“girl“和”bought“之间有很强的关联,因为是女孩购买了水果。自注意力机制可以帮助模型发现这种关系,并为模型的理解和结果生成提供帮助。

​ 该机制的大致流程如下:

​ (1)输入:模型接收一个单词序列,如”I love playing football“。

​ (2)向量化:每个单词被转换成一个向量表示。这些向量被称为词嵌入(word embeddding),它们捕捉了单词的语义信息。

​ (3)计算权重:模型会计算输入序列中每个单词与其他单词的关联权重。权重越高,表示两个单词之间的关系越密切。这些权重是通过计算单词向量之间的相似性得出的。

​ (4)加权和:模型将计算出的权重应用于输入单词的向量表示,生成一个加权和向量。这个加权和向量捕捉了输入序列中所有单词的上下文信息。

​ (5)输出:加权和向量被送入后续的网络层进行处理,最终生成模型的输出。

​ 以上是简化版的流程,在实际应用中真正的流程要比这复杂的多,会涉及多层嵌套多问题,这里仅作简单的了解。

1.4 预训练与微调

1.4.1 预训练

​ 预训练阶段是模型训练的第一阶段,也称无监督训练阶段。监督学习和无监督学习是两种常用的机器学习算法。监督学习会给模型一些参考,比如在流失预测模型中,会告诉模型哪些用户是流失用户,哪些不是。无监督学习则不会给模型参考,而是让模型自己学习,比如给出一批用户,让模型自己根据这些用户的特征将用户分成几类。

​ 在预训练阶段,GPT模型会收集现实中的大量文本数据,包括网页、书籍等的内容,然后使用这些数据进行训练,以学习语言的基本结构、语法和语义信息。说得更直白一点,就是让模型学习人类平常是怎么讲话的,不同词的含义是什么,不同词的组合是什么样的。预训练的目的是让模型学会捕捉语言的基本知识和模式,从而为后续的微调提供良好的初始权重。预训练后的模型通常被称为基础模型(base model)

1.4.2 微调

​ 微调阶段是模型训练的第二阶段,也称监督训练阶段。在这个阶段,模型使用特定任务的标注数据进行训练,以学习与任务相关的知识和技能。例如,在对话生成任务中,微调所使用的数据集可能包括一系列的对话样本及相关的回复。对话和回复的内容,就是模型咋学习时参考的数据,而在预训练阶段是没有参考数据的。

​ 在微调过程中,基础模型的权重会逐步调整,以适应特定任务的需求。微调可以使模型的学习重点从通用的语言知识转向更具针对性的任务知识,从而提高模型在特定任务上的性能。微调后的模型通常被称为下游模型(downstream model)

​ 总之,ChatGPT通过两个阶段的训练来实现高水平的文本生成能力。预训练阶段让模型学会通用的语言知识,而微调阶段针对特定任务对模型进行优化。这种训练策略既提高了模型的泛化能力,又保证了其在特定任务上的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/687268.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

React中hooks使用限制及保存函数组件状态

React Hooks 的限制主要有两条: 不要在循环、条件或嵌套函数中调用 Hook; 在 React 的函数组件中调用 Hook。 首先,Hooks是一个对象,大致结构如下: const hook: Hook {memoizedState: null,baseState: null,baseQ…

面试题之项目做过哪些性能优化可以从哪方面说?

常见的性能优化措施: 1. 减少 HTTP 请求数:合并和压缩 CSS、JavaScript ⽂件,使⽤雪碧图、字体图标等减少图片请求,减少不必要的资源请求。 2. 减少 DNS 查询:减少使用不同的域名,以减少 DNS 查询次数。…

19-k8s的附加组件-coreDNS组件

一、概念 coreDNS组件:就是将svc资源的名称解析成ClusterIP; kubeadm部署的k8s集群自带coreDNS组件,二进制部署需要自己手动部署; [rootk8s231 ~]# kubectl get pods -o wide -A k8s系统中安装了coreDNS组件后,会有一个…

ubuntu20.04.6wifi图标消失问题解决方案

介绍 本人电脑 惠普战99 2023版 集显版 双系统:win11 ubuntu 20.04.6LTS 安装ubuntu系统后WiFi图标无法显示,四处寻找方法,得以解决 注意 本人亲测有效,但不保证所有机型适用 方法 下载firmware: 链接: https:…

【算法题】108. 将有序数组转换为二叉搜索树

题目 给你一个整数数组 nums ,其中元素已经按 升序 排列,请你将其转换为一棵 高度平衡 二叉搜索树。 高度平衡 二叉树是一棵满足「每个节点的左右两个子树的高度差的绝对值不超过 1 」的二叉树。 示例 1: 输入:nums [-10,-3,0…

AcWing1239.乘积最大

[题目概述] 给定 N 个整数 A1,A2,…AN。 请你从中选出 K 个数&#xff0c;使其乘积最大。 请你求出最大的乘积&#xff0c;由于乘积可能超出整型范围&#xff0c;你只需输出乘积除以 1000000009 的余数。 注意&#xff0c;如果 X<0&#xff0c; 我们定义 X 除以 1000000009…

平台组成-门户系统

门户系统是整个平台的门面。从功能上讲&#xff0c;可以区分为内部门户和外部门户。内部门户面向内部应用&#xff0c;是内部管理的入口&#xff0c;一般运行在内网里&#xff1b;外部门户面向公众&#xff0c;是企业宣传、对外服务的窗口&#xff0c;一般运行在外网上。从访问…

20240211-日常学习(嵌入式微处理器)

目录 嵌入式微处理器的存储体系结构指令集主流的嵌入式微处理器 一些具体介绍冯诺依曼/普林斯顿结构ARM系列嵌入式微处理器 嵌入式微处理器的 存储体系结构 冯诺依曼/普林斯顿结构哈佛结构 指令集 RISCCISC 主流的嵌入式微处理器 ARM系列嵌入式微处理器MIPS系列嵌入式微处…

解锁Spring Boot中的设计模式—05.策略模式:探索【策略模式】的奥秘与应用实践!

1.策略者工厂模式&#xff08;Map版本&#xff09; 1.需求背景 假设有一个销售系统&#xff0c;需要根据不同的促销活动对商品进行打折或者其他形式的优惠。这些促销活动可以是针对不同商品类别的&#xff0c;比如男装、女装等。 2.需求实现 活动策略接口&#xff1a;定义了…

Java:集合以及集合进阶 --黑马笔记

一、集合概述和分类 1.1 集合的分类 除了ArrayList集合&#xff0c;Java还提供了很多种其他的集合&#xff0c;如下图所示&#xff1a; 我想你的第一感觉是这些集合好多呀&#xff01;但是&#xff0c;我们学习时会对这些集合进行分类学习&#xff0c;如下图所示&#xff1a;…

112 C++可调用对象,std::function std::bind

一 可调用对象 本节课将可调用对象整理一下 1 函数指针 2.具有operator()成员函数的类对象仿函数&#xff08;&#xff09; 3. 可被转换为函数指针的类对象 4. 类成员函数指针 5.总结 二 std::function(可调用对象包装器) 1.绑定普通函数 2.绑定类的静态成员函数 3.绑定仿函数…

javaweb学习day03(JS+DOM)

一、javascript入门 1 官方文档 地址: https://www.w3school.com.cn/js/index.asp离线文档: W3School 离线手册(2017.03.11 版).chm 2 基本说明 JavaScript 能改变 HTML 内容&#xff0c;能改变 HTML 属性&#xff0c;能改变 HTML 样式 (CSS)&#xff0c;能完成 页面的数据…

K8s进阶之路-Pod的生命周期

Pod创建过程&#xff1a; 首先创建一个pod&#xff0c;然后创建一个API Server 和 Etcd【把创建出来的信息存储在etcd中】 然后创建 Scheduler&#xff0c;监控API Server是否有新的Pod&#xff0c;如果有的话&#xff0c;会通过调度算法&#xff0c;把pod调度某个node上 在nod…

HDR 摄影

HDR 摄影&#xff0c;即高动态范围 High Dynamic Range摄影&#xff0c;旨在通过合并不同曝光值的照片来捕捉场景中从最亮到最暗部分的全部细节。 这种技术对于在一个图像中展现广泛的亮度范围特别有用&#xff0c;尤其是在自然光线条件下&#xff0c;如直射日光或阴影区域&…

力扣代码学习日记四

Problem: 459. 重复的子字符串 文章目录 思路解题方法复杂度代码 思路 给定一个非空的字符串 s &#xff0c;检查是否可以通过由它的一个子串重复多次构成。 示例 1: 输入: s "abab" 输出: true 解释: 可由子串 "ab" 重复两次构成。示例 2: 输入: s &q…

独孤思维:出了20多单,但优化空间巨大

前些日子&#xff0c;在绝版书陪跑群里&#xff0c;有个学员&#xff0c;说自己买了20多本书。 大家都觉得挺不错的&#xff0c;想听听她分享。 结果分享出来以后&#xff0c;我觉得有很大的优化空间。 虽然她把每个精准的对标店铺&#xff0c;做了筛选。 但是对于单个品&a…

BUGKU-WEB source

题目描述 题目截图如下&#xff1a; 进入场景看看&#xff1a; 解题思路 看源码&#xff0c;看F12网络请求没有东西只能老老实实按照提示用Linux去扫描目录 相关工具 kali虚拟机安装gobuster 或者dirsearch 解题步骤 先查看源码&#xff1a; flag{Zmxhz19ub3RfaGvyzS…

【c++基础】小鱼的航程

说明 有一只小鱼&#xff0c;它上午游泳150公里&#xff0c;下午游泳100公里&#xff0c;晚上和周末都休息&#xff08;实行双休日)&#xff0c;假设从周x(1<x<7)开始算起&#xff0c;请问这样过了n天以后&#xff0c;小鱼一共累计游泳了多少公里呢&#xff1f; 输入数…

枚举,#define,C中程序内存区域划分

目录 一、枚举 1.1枚举类型的声明 1.2枚举类型的优点 1.3枚举类型的使用 二、#define定义常量 三、C中程序内存区域划分 一、枚举 1.1枚举类型的声明 枚举顾名思义就是⼀⼀列举。 把可能的取值⼀⼀列举。 比如我们现实生活中&#xff1a; ⼀周的星期⼀到星期日是有限…

自研爬虫框架的经验总结(理论及方法)

背景&#xff1a; 由于业务需要&#xff0c;承接一部分的数据采集工作。目前市场内的一些通用框架不太适合。故而进行了自研。 对比自研和目前成熟的框架&#xff0c;自研更灵活适配&#xff0c;可以自己组装核心方法&#xff1b;后者对于新场景的适配需要对框架本身有较高的理…