大模型生成的常见Top-k、Top-p、Temperature参数

参考:
https://zhuanlan.zhihu.com/p/669661536

在这里插入图片描述

topK,topP

https://www.douyin.com/video/7380126984573127945

主要是softmax产生的词表每个词的概率分布后,
topK,比如K=3,表示采样概率最大的前3个,其他全部舍弃,在这前3个词选择
topP,P比如P=0.7,表示采样前面概率最大的加和>=0.7的所有词,后续在这些词中进行再选择,其他舍弃

综合下来:topP一般给后续选择的空间比topK要多些

Temperature

https://www.douyin.com/video/7380324563369889061

主要是在改变 softmax 生成解码token的概率上(所有词表每个词的可能概率):
正常softmax
在这里插入图片描述

加速Temperature后的softmax
每个指数除以t;e是自然是约等于2.7
在这里插入图片描述

T大于1,越大 softmax生成的每个词的概率差别不大,所以更随机
T小于1,越小 softmax生成的每个词的概率差别大,所以更确认,就是少部分几个词的概率最大
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/28466.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Perl】与【Excel】

引言 perl脚本语言对于文本的处理、转换很强大。对于一些信息量庞大的文本文件,看起来不直观,可以将信息提取至excel表格中,增加数据分析的可视化。perl语言的cpan提供了大量模块。对于excel文件的操作主要用到模块: Spreadshee…

【C++】类相关知识

C 类相关内容 1 默认构造 在C中,如果你遇到了错误信息“the default constructor of ‘B’ cannot be referenced – it is a deleted function”,这通常意味着类B的默认构造函数(即不带参数的构造函数)被声明为 delete了&#…

C 运算符优先级

在 C 语言中,运算符的优先级决定了在表达式中运算符的计算顺序。以下是 C 语言中运算符优先级表,按从高到低的顺序排列: 1. **括号**: () 2. **后缀运算符**: [] (数组下标), () (函数调用), . (成员访问), -> (指向成员访问), (后缀自…

详解 HBase 的安装部署及命令行操作

一、下载安装 进入 HBase 下载地址:https://archive.apache.org/dist/hbase/ 下载对应版本的 HBase 安装包并上传到虚拟机,并确保安装了 jdk 环境 将 HBase 安装包解压 #在 /opt/software 目录下解压安装包 tar -zxvf hbase-1.3.1-bin.tar.gz -C /opt/…

Android的自启动

最近要用到这个,所以也花时间看看。 从分层来说,安卓的自启动也分成三种,app的自启动,framework服务的自启动,HAL服务的自启动。现在简单说说这三种吧。当然,我主要关注的还是最后一种。。。 一 App的自启…

【论文速读,找找启发点】2024/6/16

ICME 2023 End-To-End Part-Level Action Parsing With Transformer 类似 DETR,通过 加 query的方式实现 端到端 ELAN: Enhancing Temporal Action Detection with Location Awareness 如何实现位置感知? > 重叠的卷积核? Do we really …

大数据开发流程解析

大数据开发是一个复杂且系统的过程,涉及需求分析、数据探查、指标管理、模型设计、ETL开发、数据验证、任务调度以及上线管理等多个阶段。本文将详细介绍每个阶段的内容,并提供相关示例和代码示例,帮助理解和实施大数据开发流程。 本文中的示…

基于WPF技术的换热站智能监控系统02--标题栏实现

1、布局划分 2、准备图片资源 3、界面UI控件 4、窗体拖动和关闭 5、运行效果 走过路过不要错过,点赞关注收藏又圈粉,共同致富,为财务自由作出贡献

CodeQL从入门到入土

为什么在现在写这文章 CodeQL传闻找到了Log4j的漏洞,这段时间上边要求,把公司系统内部常见的问题用CodeQL写检测脚本,用于系统长期检测。主要是记录这段时间的学习,以及自己总结的常用写法。 一个需求,不同人写出来的…

【Go语言】Gin 框架教程

Gin 框架教程 1.第一个 Gin 程序 1.1 Gin 安装 # 执行执行如下操作即可,安装Gin前需要安装Go环境 go get -u -v github.com/gin-gonic/gin # -v:打印出被构建的代码包的名字 # -u:已存在相关的代码包,强行更新代码包及其依赖包…

写点什么吧,作为STM32系列的开篇……

自从本科毕业后,就再也没碰过单片机…… 自从研究生毕业后,就再也没碰过硬件…… 自以为以前单片机玩的熟得很,特别是ATMEGA系列的AVR单片机,由于老师的推荐,本科时花了好多精力在这个系列单片机上面…… 本科时STM…

框架的使用

什么是框架? 盖房子,框架结构 框架结构就是房子主体,基本功能 把很多基础功能已经实现(封装了) 框架:在基础语言之上,对各种基础功能进行封装,方便开发者,提高开发效…

JavaFX 图像视图

JavaFX ImageView 控件可以在 JavaFX GUI 中显示图像。ImageView 控件必须添加到场景图中才能可见。JavaFX ImageView 控件由类表示 javafx.scene.image.ImageView。 创建一个 ImageView 通过创建类的实例来创建 ImageView 控件实例ImageView。类的构造函数ImageView需要一个…

02 设计过程概述

02 设计过程概述 2-1 设计需求2-2 飞机设计的各个阶段2-2-1 概念设计2-2-2 初步设计2-2-3 详细设计 2-3 飞机概念设计的流程2-4 集成产品开发和飞机设计2-5 补充2-5-1 布局设计(Configuration Design)关键任务:作用和重要性:使用领…

设置systemctl 启动PostgreSQL

1、在/etc/systemd/system目录下,新建配置文件 postgresql.service vi /etc/systemd/system/postgresql.service [Unit] # 简短描述 Descriptionpostgresql.service # 在network.target服务之后运行,这里可以不要 Afternetwork.target [Service] Type…

ARIMA模型与ARIMA-GARCH模型预测时间序列

上世纪 70 年代初,Ljung 等人提出 ARIMA 模型,又称求和自回归移动平均模型。其思想 是针对于非平稳时间序列进行数学建模,将其通过差分运算后 进行相关数据刻画 ,变为一个平稳的新序列,进而进行相关数据的刻画。 自 1…

Sping源码(九)—— Bean的初始化(非懒加载)— Bean的创建方式(自定义BeanPostProcessor)

序言 之前文章有介绍采用FactoryBean的方式创建对象,以及使用反射创建对象。 这篇文章继续介绍Spring中创建Bean的形式之一——自定义BeanPostProcessor。 之前在介绍BeanPostProcessor的文章中有提到,BeanPostProcessor接口的实现中有一个Instantiatio…

[文献解读]:斯坦福最新研究-HumanPlus:人形机器人跟踪和模仿人类

摘要 制造具有与人类相似外形的机器人的关键论点之一是,我们可以利用大量人类数据进行训练。然而,由于人形机器人感知和控制的复杂性、人形机器人与人类在形态和驱动方面仍然存在的物理差距,以及人形机器人缺乏从自我中心视觉学习自主技能的…

马克·雷伯特访谈:机器人的未来及波士顿动力的创新之路

引言 机器人技术作为现代科技的前沿领域,始终吸引着大量的关注与研究。波士顿动力公司作为这一领域的领军者,其创始人兼前CEO马克雷伯特(Marc Raibert)近日在主持人莱克斯弗里德曼(Lex Fridman)的播客节目…

如何用 ChatGPT DALL-E3绘画(10个案例)

如何用ChatGPT绘画——10个案例(附提示词) DALL•E 3可以在ChatGPT plus里直接使用了。 如果想免费使用,可以用新必应免费使用。 上次有个朋友问:DALL•E 3 有什么用。 这里用十个案例,来解释一下这个问题。 1.创…