大语言模型领域的重要术语解释

前言

本人对人工智能非常感兴趣,目前是一名初学者,在研究大语言模型的一些内容。很多模型都是用英文提出的,其中也包括很多概念,有些概念的中文翻译和其想表达的意思不完全一样,所以在这里,想更加精准地帮助大家理解这些词汇。

术语解释

为了方便查找,接下来的词汇将按照字典序进行解释。

ablation study

消融实验。为了测试论文中提出的创新点是否有效,将加上创新点的代码效果与不加上创新点的代码效果进行对比,从而证明该创新点的有效性。这个实验被称为消融实验。

baseline

基线,或者翻译为参照物。一般是指一个简单、易于实现的基准模型,用来与论文中提出的新模型做对比的。

cross entropy

交叉熵。交叉熵是一种计算两个向量之间距离的方式,常用于损失函数当中。交叉熵越小,表明两个向量之间越接近。

假设有两个向量 X = ( x 1 , x 2 , … , x n ) , Y = ( y 1 , y 2 , … , y n ) X=(x_1,x_2,\dots,x_n),Y=(y_1,y_2,\dots,y_n) X=(x1,x2,,xn),Y=(y1,y2,,yn)

则这两个向量的交叉熵为 ∑ i = 1 n x i l o g 2 ( y i ) \sum_{i=1}^n{x_ilog_2(y_i)} i=1nxilog2(yi)

decoding

解码。decoding是跟encoding相反的过程,将编码转换为离散属性。

encoding

编码。编码是处理离散属性的一个重要方式。独热编码(one-hot encoding)就是一种常见编码。

max pooling

最大值池化。pooling是池化的意思。max pooling这个操作可以把矩阵中 2 × 2 2\times2 2×2的格子,通过取最大值的方式,变成一个 1 × 1 1\times1 1×1的格子。该操作常用于图像处理。

NLP

自然语言处理。是Natural Language Processing的简称。著名的BERT模型、GPT模型都是用来处理NLP任务的。

normalization

归一化。归一化是对原始数据的线性变换,通常将数据映射到 [ 0 , 1 ] [0,1] [0,1],转换函数为 x ′ = x − m i n ( x ) m a x ( x ) − m i n ( x ) x'=\frac{x-min(x)}{max(x)-min(x)} x=max(x)min(x)xmin(x)

softmax

归一化指数函数。softmax是一个函数的名字,这个函数的作用是对一个向量进行处理,且使得处理完的向量所有分量之和为1,且可以放大分量中的最大值在所有分量中的占比,并且所有分量均为正值。该函数常用于多分类预测模型。

假设有一个向量 X = ( x 1 , x 2 , … , x n ) X=(x_1,x_2,\dots,x_n) X=(x1,x2,,xn),那么对这个向量进行softmax处理的公式为 x i ′ = e x i ∑ j = 1 n e x j x_i'=\frac{e^{x_i}}{\sum_{j=1}^ne^{x_j}} xi=j=1nexjexi

经过softmax处理后的向量为 X ′ = ( x 1 ′ , x 2 ′ , … , x n ′ ) X'=(x_1',x_2',\dots,x_n') X=(x1,x2,,xn)

SOTA

最先进的技术。是State Of The Art的缩写。指在公开的数据集上,目前检测到的效果最好,识别率最高,正确率最高的模型。一般在论文中会把自己提出的模型与SOTA进行比较。

token

词元。token是语言类模型中的最小语义单位。通常可以是一个单词、一个词组、一个标点符号、一个字符等,取决于文本处理的需求和方法。

word embedding

理解1(简单的理解)

词向量。很多大语言模型的一个重要的目标,就是把每个单词(或者汉字)用一个向量来表示。embedding可以简单理解为向量的意思,word embedding就是这个单词的向量表示。

理解2(真实的理解)

词嵌入。嵌入,顾名思义,就是把高维的信息映射到低维空间上。经典的one-hot编码,就是采用N维向量来表示N个单词。但是由于单词量过大,会导致向量维数过大。为了解决这个问题,就需要通过某种方法,把这个高维向量用低维的向量表示,这个低维的向量,就被称为word embedding。

zero-shot learning

零样本学习。零样本学习就是让计算机模拟人类的推理方式,来识别从未见过的新事物。

总结

本人是一个机器学习领域的萌新,对于很多概念可能还理解不到位,但是尽量把自己的一些见解呈现给大家。希望可以对大家(尤其是新手)有所帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/154378.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vite vue3配置axios

准备 参考 安装axios yarn add axios中文官网 src下新建request文件夹,该文件下新建index.ts import axios from axios; import { ElMessage } from element-plus;// const errorCodeType function (code: number): string { // let errMessage: string 未知…

SAP的一些当说不说的常识

ABAP中的WDA与FRMbopf restful和odata postman软件 SAP中MM模块相关 SAP 物料 移动类型 https://www.cnblogs.com/rainysblog/p/4133259.html T移动类型文本含义一般用途T-code101GR 收货直接收货工单入库,购买成品入库MIGO/CO11N102用于PO冲销的收货冲销直接…

一阶低通滤波器(一阶巴特沃斯滤波器)

连续传递函数G(s) 离散传递函数G(z) 转换为差分方程形式 一阶巴特沃斯滤波器Filter Designer参数设计:参考之前的博客Matlab的Filter Designer工具设计二阶低通滤波器 设计采样频率100Hz,截止频率20Hz。 注意:设计参数使用在离散系统中&…

【性能测试】稳定性/并发压力测试的TPS计算+5W并发场景设计...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 1、稳定性测试TPS…

AI生成技术威胁版权保护,水印技术和法律完善是关键/安圭拉小岛以.ai域名注册赚得3000万美元 |魔法半周报

我有魔法✨为你劈开信息大海❗ 高效获取AIGC的热门事件🔥,更新AIGC的最新动态,生成相应的魔法简报,节省阅读时间👻 🔥资讯预览 AI生成技术威胁版权保护,水印技术和法律完善是关键 Sam Altman对…

软件外包开发的验收流程

软件外包开发的验收流程是确保项目符合预期标准并满足客户需求的关键步骤。以下是一个通用的软件外包开发验收流程,希望对大家有所帮助。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交流合作。 1.明确验收标准: 在项目…

jmeter接口自动化部署jenkins教程详解

首先,保证本地安装并部署了jenkins,jmeter,xslproc 我搭建的自动化测试框架是jmeterjenkinsxslproc 注意:原理是,jmeter自生成的报告jtl文件,通过xslproc工具,再结合jmeter自带的模板修改&…

【C语言】条件变量(pthread_cond_t)

一、概述 条件变量(pthread_cond_t)是POSIX线程(也称为pthread)库中用于线程同步的一种机制。在多线程程序中,条件变量通常与互斥锁(pthread_mutex_t)一起使用,以防止并发问题,如竞态条件和死锁。 二、条件变量(pthre…

渲染器之挂载与更新

讲解渲染器的核心功能:挂载与更新。 1、挂载子节点和元素的属性 当 vnode.children 的值是字符串类型时,会把它设置为元素的文本内容。一个元素除了具有文本子节点外,还可以包含其他元素子节点,并且子节点可以是很多个。为了描述…

IonQ、Rigetti、D-Wave公布2023年第三季度财报!

近期,量子计算公司Rigetti、IonQ和D-Wave均公布了各自在2023年第三季度的盈利收益。 这三家公司在近期均实现了收入增长,并助力客户实现相应的业务增长。然而,在追求实现量子霸权和超越经典硅基计算机系统的同时,这些公司仍面临着…

ECharts零基础使用思路 图表案例网站推荐

1、用npm安装echarts npm i echarts -S 2、引入 (1)可以在mian.js里全局引入 import echarts from ‘echarts’ Vue.prototype.$echarts echarts 将echarts挂载在Vue原型上 用时直接this.$echarts即可 (2)也可以在组件中按需引入…

安卓毕业设计:基于安卓android微信小程序的在线医生答疑系统

项目介绍 在线医生答疑开发使系统能够更加方便快捷,同时也促使在线医生答疑变的更加系统化、有序化。系统界面较友好,易于操作。具体在系统设计上,客户端使用微信开发者,后台也使用java技术在动态页面上进行了设计,My…

音视频项目—基于FFmpeg和SDL的音视频播放器解析(十五)

介绍 在本系列,我打算花大篇幅讲解我的 gitee 项目音视频播放器,在这个项目,您可以学到音视频解封装,解码,SDL渲染相关的知识。您对源代码感兴趣的话,请查看基于FFmpeg和SDL的音视频播放器 如果您不理解本…

windows系统 phpstudy 安装 imagick 扩展

其他博客 https://blog.csdn.net/json_ligege/article/details/130227725 1. 下载 imagemagick.org 注意版本对应 官网 https://imagemagick.org/script/download.php#windows github地址 //老版本需要自己编译 https://github.com/ImageMagick/ImageMagick/releases 其他地址…

Linux C 基于tcp多线程在线聊天室

多线程在线聊天室 概述客户端服务端 概述 客户端实现了判单用户登录结果、防止单回车字符发送、保存和显示历史聊天记录(仅自己)、退出聊天室功能。   服务端实现了验证用户是否已经存在(支持最大64用户连接)支持广播用户进入退…

自定义类型转换函数operator MyInt()

/*** * 结论:对pass-by-value传参的常规调用,会用实参拷贝构造形参,实参与形参相互无影响; * 当对实参调用类型转换函数(返回形参类型),编译器会优化代码使类型转换函数返回值直接构造在调用作用域的接受对象上 */ …

AR眼镜方案—单目光波导AR智能眼镜

光波导技术是一项具有前沿意义的技术,它能够将光线反射180度,使得眼镜框架内置的MicroLED屏幕的图像通过多次反射与扩散后准确地传递到人眼中。采用MicroLED显示技术的AR智能眼镜不仅体积显著缩小,屏幕只有0.68英寸大小,并且还能够…

crontab

crontab 详细用法 定时任务_crontab每周六凌晨一点重启-CSDN博客 使用 Crontab 设置开机启动 Python 脚本_crontab开机启动脚本-CSDN博客 编写一个 shell 脚本 $ cat test.sh #!/bin/bashpython3 main.py > ~/output-20230901.txtubuntu环境下开启定时任务crontab_ubuntu…

华为HCIE技术(HCIP、HCIE)汇总

我所在的岗位是网络运维,路由与交换用的比较多,外网技术比较少。所以把经常用的写的比较详细。大家多多包涵。 理论部分 网络基础:ISO网络七层模型 交换机部分 首次Console口登陆配置Telnet访问 VLAN VLAN的介绍、单交换机vlan划分实验…

KT142C语音芯片音乐前要空白音才行,声音会被截掉,实际语音是你好,播放变成好

KT142C语音芯片播放音乐前必须有一段空白音才行,不然声音会被截掉一部分,播放 温度1超高,如果前面没有空白音,就会变成 度1超高 出现这个问题,核心的原理在于功放芯片是受控了 这个问题只存在于,配置为DAC…