大模型微调的“温度”参数,原来影响的是 softmax

大家好啊,我是董董灿。

在对大模型进行微调训练时,经常会看到几个重要的超参数,用来控制大模型生成文本的效果。

图片

其中一个超参数叫做 Temperature,中文名字叫温度,初见时很是不解,为啥一个模型还有温度这个选项。

其实温度这个超参数,是可以控制模型输出的多样性。

可以这么理解,热力学上,温度越高,分子运动越剧烈;温度越低,分子运动越缓慢。

在大模型中也是这样,温度这个参数的值越高,代表了输出结果越多变,越"歇斯底里",用褒义词讲,叫越具有多样性和创意性。

图片

那么这个参数到底是如何控制大模型的输出效果的呢?今天就一起来了解一下吧。

1、温度影响的是 softmax 函数

之前介绍过 softmax 这个函数,它的作用是将原始数据归一化到 0-1 之间的概率分布,并且拉开输入数据之间的差距,让大的数据概率变得更大,小的数据概率变得更小。

关于softmax的原理介绍,查看:10 分钟搞懂 softmax 的底层逻辑。

对应到大模型中,softmax 的作用体现如下:

  • 我们在跟大模型对话时,它会输出文本作为回答。模型在预测下一个输出的单词时,首先会为每个可能的词计算一个分数(这个分数基于模型的当前状态和它对语言的理解)。

  • 然后,softmax 函数将这些分数转换为概率(上面的链接查看具体过程),转换的过程就会使得分数较高的词的概率更高,而分数较低的词的概率更低,从而模型选择概率更高的单词作为输出。

这是 softmax 函数的作用。

不过这是没有 Temperature 参数的 softmax,一旦加上 Temperature 参数,就会使的这个函数发生一点微妙的变化。

首先,在不考虑 Temperature 的情况下,softmax 函数的标准形式是这样的:

图片

这里,Z 是一个向量,其中每个元素  Zi 代表模型为一个特定词语计算出的分数。理解为这是一对备选的下一个单词或词组的分数值。

函数 e^Zi 是对每个分数求指数值,分母是对所有分数的指数值求和,从而确保了所有单词的概率加起来等于1。

2、 高温度让 softmax 变得平滑

当引入 Temperature 参数 T 时,公式变为:

图片

在这个修改后的公式中:

  • 当 T = 1 时,它就是普通的 softmax 函数。

  • 当 T > 1 时,分数之间的差异会减小,导致概率分布更加均匀(增加随机性和创新性),T越大,概率差异越小。

  • 当 T < 1 时,分数之间的差异会增大,使得高分数的词的概率远远高于低分数的词(增加确定性和预测性)。

因此,Temperature 通过调节分数的缩放来影响 softmax 函数的输出,进而控制模型在生成文本时的随机性和创新性。

再说的通俗一点,本来模型倾向于选择最高概率的单词(老大)作为输出,一旦将 T 调高,那么大家的概率会变的更加均匀,大家的差距拉的不会很开,此时选择老大还是老二差别不大。

因此,模型可能会选择老大,也可能会选择老二,甚至老三,这样模型就有更多选择性,从而变得更加有创意。

因此,当你调整 Temperature 参数时,实际上是在调节这个转换过程中的“平滑度”或“尖锐度”。

图片

上图展示了这个过程:在低温度下(黄色),softmax 输出的概率函数更加尖锐,意味着高分数的词语概率会更高,而低分数的词语概率会更低。

这导致模型更倾向于选择那些最有可能(概率最大)的词语,一种场景就是,给大模型相同的提问,每次都会得到类似的回答。

在高温度下(蓝色),softmax 输出的函数变得更平滑,即使分数较低的词也有合理的被选择概率。

此时对于相同的提问,就会使得模型具有更大概率生成不一样的回答,从而表现出更加有创意。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/221795.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

将创建表字段语句快速转换成golang struct字段

用网页jquery快速生成 本地建立 struct.html <!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title>leo-转换</title> <script src"https://cdn.staticfile.org/jquery/1.10.2/jquery.min.js"></s…

深入学习《大学计算机》系列之第1章 1.2节——问题描述与抽象

一.欢迎来到我的酒馆 第1章 1.2节&#xff0c;问题描述与抽象。 目录 一.欢迎来到我的酒馆二.问题描述、抽象与建模1.什么是抽象2.为什么要抽象3.什么是建模 二.问题描述、抽象与建模 什么是抽象&#xff1f;为什么要抽象&#xff1f;什么是建模&#xff1f;建什么模&#xff1…

Windows安装Elasticsearch并结合内网穿透实现公网远程访问

Windows安装Elasticsearch并结合内网穿透实现公网远程访问 系统环境1. Windows 安装Elasticsearch2. 本地访问Elasticsearch3. Windows 安装 Cpolar4. 创建Elasticsearch公网访问地址5. 远程访问Elasticsearch6. 设置固定二级子域名 Elasticsearch是一个基于Lucene库的分布式搜…

[Longformer]论文实现:Longformer: The Long-Document Transformer

文章目录 一、完整代码二、论文解读2.1 介绍2.2 Longformer注意力模式注意力计算 2.3 自回归语言模型注意力模式训练结果 2.4 预训练和微调注意力模式位置编码预训练结果 2.5 Longformer-Encoder-Decoder (LED) 三、整体总结 论文&#xff1a;Longformer: The Long-Document Tr…

wordpress:6.3的docker部署和k8s部署方式

wordpress:6.3的docker部署 一.docker部署mysql5.7数据库 docker pull mysql:5.7 mkdir -p /data/mysql/data /data/mysql/logs /data/mysql/conf touch /data/mysql/conf/my.cnf docker run --restartalways -p 13306:3306 --name mysql -v /data/mysql/conf:/etc/mysql/con…

std::vector

这里主要介绍下reserce/resize、push_back/emplace_back、shrink_to_fit/clear等接口&#xff1b; 1. reserve and resize C的vector对象可以通过reserve方法来设置vector对象的容量&#xff0c;通过resize方法来改变vector对象的大小。reserve所设置的容量指的是vector容器中可…

网工内推 | IT经理,50k*14薪,NP以上即可,七险一金

01 海天瑞声 招聘岗位&#xff1a;IT经理 职责描述&#xff1a; 1、IT基础架构的方案制定、实施和日常维护&#xff0c;包括机房建设运维、服务器配置及运维、网络规划及运维、上网行为管理、电话、电话、监控、门禁等各类弱电系统搭建及运维 2、负责公司环境及网络安全防御体…

Vue 按键修饰符

常用按键修饰符&#xff1a;enter【回车】、delete【删除】、esc【退出】、space【空格】、tab【缩进】、up【上】、down【下】、left【左】、right【右】 。 系统按键修饰符&#xff1a;ctrl、alt、shift、meta【四个小方块】 。 鼠标修饰符&#xff1a;left【左键】、right…

Chip and Ribbon Educational Codeforces Round 158 (Rated for Div. 2)

Problem - B - Codeforces 题目大意&#xff1a;有一个n个数的数组a&#xff0c;有一个初始等于1的指针&#xff0c;有两种操作&#xff1a; 1.设指针当前位置为l&#xff0c;可以选择一个任意位置r(r>l)&#xff0c;使[l,r]内所有数1 2.将指针移动到一个任意位置&#x…

ubuntu 自动安装 MKL Intel fortran 编译器 ifort 及完美平替

首先据不完全观察&#xff0c;gfortran 与 openblas是 intel fortran 编译器 ifotr和mkl的非常优秀的平替&#xff0c;openblas连函数名都跟mkl一样&#xff0c;加了一个下划线。 1&#xff0c; 概况 https://www.intel.com/content/www/us/en/developer/tools/oneapi/base-too…

配电房电力智能运维系统

配电房电力智能运维系统是一种采用先进的信息技术手段&#xff0c;对配电房的电力设备进行实时监控、数据分析和管理的系统。它能够提高电力设备的安全性和效率&#xff0c;降低运维成本&#xff0c;为用户提供更加优质、高效的电力服务。 该系统依托智能运维工具-电易云&#…

PCL点云处理之反算两块点云的放缩比例 (二百二十三)

PCL点云处理之反算两块点云的放缩比例 (二百二十三) 一、算法介绍二、算法实现1.代码2.结果一、算法介绍 在 PCL点云处理之等比例放大与缩小点云尺寸(七十二)一章中,介绍了如何等比例放大缩小一块点云,这里介绍如何反算得到两片经过放缩的点云之间的比例,这种计算方法应…

关系型数据库和非关系型数据库有什么区别?

一、什么是数据库&#xff1f; 数据库是一个结构化的数据集合&#xff0c;用于存储、管理和组织数据。它是一个电子化的文件柜&#xff0c;可以存储大量的数据&#xff0c;并提供了一种高效地检索、更新和管理数据的方法。数据库可以用于存储各种类型的数据&#xff0c;例如文…

【排序算法】之归并排序

归并思想 先拆分后合并 也就是分治&#xff1b; 拆分合并思想具体讲解可以参考以下链接&#xff1a; b站链接&#xff1a; 点这里&#xff1a;b站归并思想具体讲解 看代码 代码中的例子参考上图和下图 public class MergeSort {//一、拆分部分public static void split(i…

springcloud getway 网关之过滤器filter

1. Filter的使用 filter是Gateway的三大核心之一&#xff0c;路由过滤器可用于修改进入HTTP请求和返回的HTTP响应&#xff0c;路由过滤器只能指定路由进行使用。Gateway内置了多种路由过滤器&#xff0c;他们都由GatewayFilter工程 2. Filter的作用 当我们有很多个服务时&am…

【机器学习 | 假设检验系列】假设检验系列—卡方检验(详细案例,数学公式原理推导),最常被忽视得假设检验确定不来看看?

&#x1f935;‍♂️ 个人主页: AI_magician &#x1f4e1;主页地址&#xff1a; 作者简介&#xff1a;CSDN内容合伙人&#xff0c;全栈领域优质创作者。 &#x1f468;‍&#x1f4bb;景愿&#xff1a;旨在于能和更多的热爱计算机的伙伴一起成长&#xff01;&#xff01;&…

2024 年,新程序员如何与AI共赢!!

&#x1f337;&#x1f341; 博主猫头虎 带您 Go to New World.✨&#x1f341; &#x1f984; 博客首页——猫头虎的博客&#x1f390; &#x1f433;《面试题大全专栏》 文章图文并茂&#x1f995;生动形象&#x1f996;简单易学&#xff01;欢迎大家来踩踩~&#x1f33a; &a…

如何在Facebook Business Manager进行企业认证

Facebook Business Manager&#xff0c;简称BM&#xff0c;按照字面意思理解就是Facebook官方的商务管理平台&#xff0c;是供广告主团队去使用的一个管理工具。BM可以绑定Facebook公共主页、广告账户等一系列Facebook账号。通过BM&#xff0c;企业就可以在一个后台&#xff0c…

Amazon SageMaker: 拓展机器学习边界,塑造未来创新趋势

授权说明&#xff1a;本篇文章授权活动官方亚马逊云科技文章转发、改写权&#xff0c;包括不限于在 亚马逊云科技开发者社区, 知乎&#xff0c;自媒体平台&#xff0c;第三方开发者媒体等亚马逊云科技官方渠道。 近期在 re:Invent 2023 大会上&#xff0c;亚马逊云科技发布了一…

Stable Diffusion 源码解析(1)

参考1&#xff1a;https://blog.csdn.net/Eric_1993/article/details/129393890 参考2&#xff1a;https://zhuanlan.zhihu.com/p/613337342 1.StableDiffusion基本原理1.1 UNetModel、FrozenCLIP 模型1.2 DDPM、DDIM、PLMS算法 2. Runwayml SD 源码2.1 Img2Img Pipeline2.2 DD…