Day13—大语言模型

定义

大语言模型(Large Language Models)是一种基于深度学习的自然语言处理(NLP)模型,用于处理和生成人类语言文本。

一、认识NLP

在这里插入图片描述

什么是NLP

​ NLP(Natural Language Processing),即“自然语言处理”,主要研究使用计算机来处理、理解及运用人类语言的各种理论和方法,属于人工智能的一个重要研究方向。

​ 简单来说,NLP就是如何让计算机理解人类语言。

NLP的主要研究方向

​ NLP是一个庞大的技术体系,研究方向主要包括机器翻译、信息检索、文档分类、问答系统、自动摘要、文本挖掘、知识图谱、语音识别、语音合成等。

​ 相较于CNN重点应用于计算机视觉领域,RNN则更多地应用于NLP方向。

word2vec

word2vec介绍

​ word2vec是一种基于神经网络的词嵌入技术,通过训练神经网络得到一个关于输入X和输出Y之间的语言模型,获取训练好的神经网络权重,这个权重是用来对输入词汇X进行向量化表示的。

word2vec的两种模型
  • CBOW模型

​ CBOW(Continuous Bag-of-Words Model),即“连续词袋模型”,其应用场景是根据上下文预测中间词,输入X是每个词汇的one-hot向量,输出Y为给定词汇表中每个词作为目标词的概率。
在这里插入图片描述

Skip-gram模型

也称为"跳字模型",应用场景是根据中间词预测上下文词,所以输入X为任意单词,输出Y为给定词汇表中每个词作为上下文词的概率。
在这里插入图片描述

二、全连接神经网络

在这里插入图片描述

全连接神经网络

​ 全连接神经网络是一种连接方式较为简单的人工神经网络结构,某一层的任意一个节点,都和上一层所有节点相连接。

在这里插入图片描述

神经网络的激活函数

在这里插入图片描述
在神经网络中可以引入非线性激活函数,这样就可以使得神经网络可以对数据进行非线性变换,解决线性模型的表达能力不足的问题。

常见的激活函数
  • Sigmoid激活函数

y = 1 1 + e − x \Large y=\frac{1}{1+e^{-x}} y=1+ex1

  • Relu激活函数

y = m a x ( 0 , x ) \Large y=max(0,x) y=max(0,x)

  • tanh激活函数

y = e x − e − x e x + e − x = 1 − e − 2 x 1 + e − 2 x \Large y=\frac{e^x-e^{-x}}{e^x+e^{-x}}=\frac{1-e^{-2x}}{1+e^{-2x}} y=ex+exexex=1+e2x1e2x

  • Softmax激活函数

p l = e z l ∑ j = 1 k e z j \Large p_l=\frac{e^{z_l}}{\sum_{j=1}^ke^{z_j}} pl=j=1kezjezl

Softmax激活函数计算的结果是各个分类的预测概率值,常用于多分类问题

神经网络的过拟合问题

在这里插入图片描述

​ 神经网络因为隐藏层的存在可以实现复杂的非线性拟合功能。但随着神经网络层数加深,神经网络很容易发生过拟合现象(在训练集上表现很好,在未知的测试集上表现很差,即“泛化能力差”)。

解决神经网络过拟合问题的方法
  • 正则化

​ 与很多机器学习算法一样,可以在待优化的目标函数上添加正则化项(例如L1、L2正则),可以在一定程度减少过拟合的程度。

  • Dropout(随机失活)

​ 可以将Dropout理解为对神经网络中的每一个神经元加上一道概率流程,使得在神经网络训练时能够随机使某个神经元失效。

在这里插入图片描述

**注意: **

  • 对于不同神经元个数的神经网络层,可以设置不同的失活或保留概率
  • 如果担心某些层所含神经元较多或比其他层更容易发生过拟合,则可以将该层的失活概率设置得更高一些
感知器工作机制

​ 感知器即单层神经网络,也即"人工神经元",是组成神经网络的最小单

前向传播与反向传播

前向传播

​ 计算输出值的过程称为“前向传播”:将上一层的输出作为下一层的输入,并计算下一层的输出,一直到运算到输出层为止。

反向传播(Back Propagation,BP)

​ 反向传播(BP)说白了根据根据J的公式对W和b求偏导,也就是求梯度。因为我们需要用梯度下降法来对参数进行更新,而更新就需要梯度。

在这里插入图片描述

总结:

前向传播得到输出,反向传播调整参数,最后以得到损失函数最小时的参数为最优学习参数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/859662.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

不同系统传文件

Windows 系统与 Linux 系统之间传输文件,基于网络协议的方法有很多种。以下是几种常见的方法: 1. 使用 SCP(Secure Copy Protocol)SCP 是一种通过 SSH 传输文件的协议,安全且简单。 在 Windows 上使用 SCP下载并安装一…

鸿蒙NEXT实战开发: 依据前端对http请求进行二次简单封装

一、为什么要对http请求进行封装? 在我看来二次封装有一下几点好处 代码封装之后,开发人员只用关注业务层面的东西,不用去过多浪费时间在接口请求数据处理上。封装之后代码更加简洁,通俗易懂,方便后期维护&#xff0…

MUR4060PT-ASEMI逆变焊机MUR4060PT

编辑:ll MUR4060PT-ASEMI逆变焊机MUR4060PT 型号:MUR4060PT 品牌:ASEMI 封装:TO-247 恢复时间:35ns 最大平均正向电流(IF):40A 最大循环峰值反向电压(VRRM&#x…

Nature重磅:揭开睡眠不足为什么会损害记忆力

我们的记忆力会在睡眠期间得到增强,海马体是大脑的记忆中心,而海马体尖波涟漪(sharp-wave ripple,SWR)期间觉醒体验的激活和重放被认为是记忆力得到增强的关键。睡眠不足会损害记忆力,然而,我们…

计算机组成原理笔记-第4章 存储器

第4章 存储器 笔记PDF版本已上传至Github个人仓库:CourseNotes,欢迎fork和star,拥抱开源,一起完善。 该笔记是最初是没打算发网上的,所以很多地方都为了自我阅读方便,我理解了的地方就少有解释&#xff1b…

【杂记-浅谈OSPF中的各种报文】

OSPF中的各种报文 一、Hello报文二、DD报文三、LSR报文四、LSU报文五、LSAck报文 一、Hello报文 Hello报文周期性发送,用来发现和维持OSPF邻居关系,其中,Hello报文包含的字段有: 1、Network Mask:发送Hello报文的接口…

Tomcat简介与安装

目录 一、Tomcat 简介 1、Tomcat好帮手---JDK 2、安装Tomcat & JDK 1、系统环境说明 2 、安装JDK 3、安装Tomcat 二、Tomcat目录介绍 1、tomcat主目录介绍 2、webapps目录介绍 3、Tomcat配置介绍(conf) 4、Tomcat的管理 5、tomcat 配置管…

Linux启动Oracle数据库

1.登录oracle用户 su - oracle2.进入sqlplus界面 sqlplus / as sysdba; 或者 sqlplus /nolog; conn / as sysdba;3.启动数据库实例 SQL> startup4.停止数据库实例 SQL> shutdown immediate5.检查数据库是否启动 ps -ef|grep ora_6.检查监听是否启动 lsnrctl status…

Spring Boot 优雅进行数据脱敏

文详细解析在Spring Boot应用中优雅地脱敏敏感信息&#xff0c;如手机号、邮箱、身份证等&#xff0c;使用的是Jackson库中的JsonSerializer。 1. 创建自定义脱敏序列化器 首先&#xff0c;创建一个继承自JsonSerializer<String>的序列化器。以MobileSerializer为例&am…

24.6.16

星期一&#xff1a; 补cf global round26 C2 cf传送门 思路&#xff1a;有效操作2只有一次&#xff0c;且反转后不会再出现负数&#xff0c;即后面能贡献 2^n-i个方案&#xff0c;再乘上前面 2^(k>0的次数) 代码如下&…

B3850 [GESP202306 四级] 幸运数

特殊原因&#xff0c;学校请2.5天假 [GESP202306 四级] 幸运数 题目描述 小明发明了一种 "幸运数"。一个正整数&#xff0c;其偶数位不变&#xff08;个位为第 1 位&#xff0c;十位为第 2 位&#xff0c;以此类推&#xff09;&#xff0c;奇数位做如下变换&#x…

【C++11】initializer_list详解!

一、什么是initializer_list? nitializer_list 是一种C11新的类型特性&#xff0c;它允许我们以统一的方式初始化对象。它是一个代表数组的轻量级包装器&#xff0c;通常用于构造函数和函数参数中&#xff0c;以允许传递一个初始化元素列表。 initializer_list也是一种模板类…

【C#基础】C#中的IEnumerable<T>接口介绍

文章目录 前言一、关于 IEnumerable<T> 接口的一些关键点1、定义2、使用3、LINQ支持4、自定义实现5、线程安全6、延迟执行 二、C#中的IEnumerable<T>接口的扩展介绍1、接口定义与基础2、使用场景3、扩展方法4、延迟执行5、自定义实现6、线程安全7、性能考虑 前言 …

GWB—200JA型引伸计标定器

GWB一200JA型引伸计标定器&#xff0c;是一种纯机械式的高精度位移测微仪器。依据JJG762—2007引伸计检定规程要求&#xff0c;专门用于对各类引伸计的标定&#xff0c;也广泛用于位移传感器的检定及相应百分表、千分表的标定。 l、本仪器由精密微分测头及测量支架组成。该标定…

List<Point>实现深拷贝的一种简单方法

在C#中&#xff0c;列表&#xff08;List&#xff09;的赋值如您所示是浅拷贝&#xff0c;即两个列表将引用相同的底层数组。要实现深拷贝&#xff0c;您需要手动遍历列表并为每个元素创建一个新的副本。对于Point这样的结构体&#xff0c;直接赋值会自然地创建一个副本&#x…

vue2+webpack 和 vite+vue3 配置获取环境变量(补充)

相关涉及知识点可看小编该文章&#xff1a; nginx: 部署前端项目的详细步骤&#xff08;vue项目build打包nginx部署&#xff09;_前端工程打包部署到nginx-CSDN博客 1.vue2webpack 我们通常会在项目中看到这么两个文件(没有则自己创建&#xff0c;文件名&#xff1a;.env.***) …

C#回车按下时 如果当前焦点的下个控件为Button 则按Button。 如果不是Button则焦点移到下个控件上

需求 扫SN 扫IMEI 扫其它 就自动点打印 帮我写这个C# 函数 “ private void FormF360ColorBox_KeyDown(object sender, KeyEventArgs e)” 回车按下时 如果当前焦点的下个控件为Button 则按Button。 如果不是Button则焦点移到下个控件上。 控件的Index 顺序要设对哦。 你可以…

AI大模型战争:通用与垂直,谁将领跑未来?

文章目录 &#x1f4d1;引言一、通用大模型&#xff1a;广泛适用&#xff0c;实力不容小觑1.1 强大的泛化能力1.2 广泛的适用场景 二、垂直大模型&#xff1a;专注深度&#xff0c;精准解决问题2.1 深度专注&#xff0c;精准度高2.2 快速落地与普及 三、通用与垂直&#xff1a;…

通过焦点行事件对行值抓取改变当行状态值

我们在实际开发过程中&#xff0c;对于每一行的状态值需要有单独的变换&#xff0c;通过对特定值的判断我们可以改变其状态值&#xff0c;通过状态值的不同&#xff0c;允许用户进行不同的操作&#xff0c;本文状态值以审核为例&#xff0c;通过对AuditState列的判断&#xff0…

新建的springboot项目启动报错:找不到或无法加载主类

检查编译问题 在使用Spring Boot时&#xff0c;我们通常使用Maven或Gradle进行项目的构建和编译。如果在编译过程中出现了错误&#xff0c;可能会导致无法加载主类的问题。 在使用Maven时&#xff0c;可以尝试使用 mvn clean install 命令清理并重新构建项目。 如果使用Grad…