LLM:《第 3 部分》从数学角度评估封闭式LLM的泛化能力

一、说明

        在 OpenAI 或 Anthropic 等封闭式大型语言模型 (LLM) 领域,对智能和多功能性的真正考验在于它们处理高特异性查询并在响应中表现出独特性的能力。在这篇博客中,我的目标是提供测试这些模型泛化能力的机制。

        封闭式LLM意味着您不知道训练语料库的语言特征、语料库容量的多样性是什么,也不知道LLM的内部运作方式(例如模型权重或注意力分数)。

        

延续之前的帖子:

  • 在第 1 部分中,我介绍了有效的泛化如何需要具有广泛语言特征的多样化训练语料库。
  • 在第 2 部分中,我介绍了从动态注意机制和连续空间操作到梯度下降优化和深度神经网络结构的数学模型,强调了它们相对于传统记忆模型的优越性。

        我还建议您熟悉我在本博客中编写的模型幻觉和测试技术:以数学方式评估 LLM 中的幻觉(例如 GPT4)

二、高特异性查询的概念

        高特异性查询是指非常详细的问题或提示,通常涉及利基或晦涩的主题。从数学角度来看,这些查询在几个方面对LLM提出了挑战:

2.1 稀有Token处理

        此类查询通常涉及罕见单词或独特的单词组合。该模型处理这些标记的能力依赖于其嵌入空间,其中单词在高维空间中表示为向量。

        为了严格测试封闭式 LLM 的泛化能力,您可以使用通过自己学习的嵌入创建的稀有单词来创建查询。

2.1.1 学习嵌入表示

对于查询中的每个标记t ,其在高维空间中的向量表示直接从预先训练的嵌入矩阵E获得:

        这里,E是嵌入矩阵,idx( t )是返回标记t在嵌入矩阵中的索引的函数。该方法利用E 中嵌入的预先训练的上下文信息,直接从E检索t的嵌入向量。

        如上式所示,使用预训练嵌入的向量空间表示与大型语言模型 (LLM) 中稀有词查询的创建和处理的相关性在以下几个方面具有重要意义:

  • 更丰富的语义表示:预训练的嵌入为每个单词(包括稀有单词)提供了更丰富、更细致的表示。与单独处理每个单词的单热编码不同,嵌入根据单词在大型数据集中的使用情况来捕获单词之间的语义关系。这使得法学硕士能够更好地理解和响应涉及稀有单词的查询,因为这些嵌入编码了有关每个单词的更多信息。
  • 生僻字的上下文感知:在高级LLM中,尤其是那些使用 Transformer 架构的LLM,令牌的嵌入会根据其上下文进一步细化。这意味着罕见词的表示可以根据查询中的周围词动态调整。这种语境调整对于理解稀有词至关重要,这些词在不同的语境中可能有不同的含义或含义。
  • 处理数据稀疏性:根据定义,生僻词很少出现在训练数据集中,从而导致数据稀疏性问题。预先训练的嵌入通过提供对这些单词的实质性基础理解来帮助缓解这种情况。由于这些嵌入是在大型且多样化的数据集上进行训练的,因此它们很可能遇到了许多罕见的单词,从而使模型在对特定任务进行微调之前就对这些单词有了基本的了解。
  • 改进稀有词的泛化:使用预先训练的嵌入有助于泛化。当法学硕士在查询中遇到罕见单词时,它不仅仅依赖于该单词在训练数据中的具体出现情况。相反,它利用嵌入的广义表示,使其能够做出更明智的预测或响应,即使特定的罕见单词在其训练中没有广泛覆盖。
  • 应用示例:考虑涉及罕见医学术语或利基领域技术术语的查询。预先训练的嵌入有助于模型掌握这个罕见术语的基本语义。然后,该模型可以使用其上下文理解机制将这种含义整合到整体响应中,从而得到更准确和连贯的答复。

2.1.2 通过平滑技术处理生僻词:

        为了解决稀有词的稀疏性,可以应用拉普拉斯平滑等平滑技术:

在哪里,

  • P_ smooth​( t ) 表示标记t的平滑概率。
  • N ( t ) 是数据中标记t出现的次数。
  • α是平滑参数,通常是一个很小的正数。
  • N是数据中标记的总数。
  • ∣ V ∣ 是词汇表的大小(数据中唯一标记的数量)。

        这种形式的平滑通常用于自然语言处理中,通过将罕见或看不见的单词的概率调整为非零来处理它们。

2.2 独特性因素

        评估LLM对极不可能出现在其训练数据集中的查询的响应,可以测试其创造力和泛化能力。这涉及:

2.2.1 创新的响应生成

        从数学上讲,这意味着模型敢于超越训练期间学到的常见模式,并探索所学概念的新组合。

给定响应r的新颖性得分 N( r )定义为:

在哪里,

  • N( r ) 表示响应r的新颖性得分。
  • 对响应中由i索引的所有单词进行求和。
  • P ( wi ∣ w 1​,…, wi −1​) 是在给定响应中前面的单词的情况下单词wi​的条件概率。
  • 该条件概率的对数乘以概率本身并对所有单词求和,量化了响应的整体新颖性。负号确保分数越高表示新颖性越高。

2.2.2  数学解释

概率基础:

  • 这个方程植根于信息论,特别是自我信息或意外的概念。
  • 术语 log P ( wi ∣ w 1​,…, wi −1​) 衡量在给定先前上下文的情况下与单词wi​ 的出现相关的惊喜量或信息内容。

上下文相关性:

  • 条件概率P ( wi ∣ w 1​,…, wi −1​) 反映了每个单词wi​ 的可能性如何受到其先前上下文的影响。
  • 较低的概率表明前面单词的上下文中的可预测性较低且新颖性较高。

信息内容汇总:

  • 响应中所有单词的总和汇总了惊喜或信息内容,提供了响应整体新颖性的综合衡量标准。

2.2.3 对LLM的影响

        评估生成文本的新颖性:

  • 该分数有效地量化了响应与基于训练数据的可预测模式的偏差程度。
  • 较高的 N( r ) 表明LLM能够生成的响应不仅是其训练数据的释义或重复,还包括意想不到的或不太常见的单词序列。

创造性和多样化的语言使用:

  • 新颖性得分高的回答可能会表现出对语言的创造性使用,可能会包含罕见的单词、独特的短语或创新的想法。
  • 它表明模型以新的和原始的方式综合和组合学习信息的能力。

2.2.4 实际考虑

平衡新颖性与连贯性:

  • 虽然高新颖性分数对于创造力来说是可取的,但它必须与给定上下文或查询的连贯性和相关性相平衡。
  • 如果没有适当的限制,极高的新颖性分数有时可能会导致无意义或不相关的响应。

不同领域的应用:

  • 该指标在故事生成、诗歌创作或构思等创造性应用中特别有用,在这些应用中,原创性是关键要求。

基准测试和模型比较:

  • 新颖性得分可以作为比较不同模型或同一模型的不同版本创意能力的基准。

2.3 统计稀有度

        从统计的角度来看,独特的查询推动模型在其概率分布的尾部生成响应,而不是更熟悉的中心区域。

        给定响应的稀有度分数 R 定义为:

在这里,

  • R 代表响应的稀有度分数。
  • 该产品会遍历响应中由i索引的所有单词。
  • P ( wi ​) 是根据模型训练数据出现单词wi​的概率。
  • 1− P ( wi ​) 反映了每个单词的稀有度。响应中所有单词的这些值的累积乘积给出了总体稀有性得分 R,值越低表示响应的稀有性或唯一性越高。

2.3.1 数学基础

基于概率的稀有度测量:

  • 该公式植根于概率论,特别是序列中独立事件的概念。
  • P ( wi ​) 表示根据模型的训练数据,单词wi​ 出现的概率。因此,项 1− P ( wi ​) 表示单词wi​在模型的语言框架中的稀有性或不寻常性。

稀有产品:

  • 这些术语在响应中所有单词上的乘法汇总了各个稀有度,从而提供了响应整体稀有度的累积度量。

较低分数的解释:

  • R 值较低表示响应由单独罕见或不寻常的单词组成,表示生成的文本具有高度的唯一性。

2.3.2 对LLM的影响

检测响应的唯一性:

  • 低稀有度分数表明LLM能够生成与其训练数据中常见或经常出现的模式不同的响应。
  • 它表明该模型有能力探索不太常见的语言路径,可能综合新颖的想法或概念。

稀有性和相关性之间的平衡:

  • 虽然稀有性是创造力的一个理想属性,但它必须与上下文相关性和连贯性相平衡。极其罕见的单词组合可能很新颖,但也可能导致无意义或偏离主题的反应。

在创意和多样化环境中的应用:

  • 在创意写作或头脑风暴等独特性至关重要的领域,较低的稀有度分数可能是模型有效性的重要指标。

2.3.3 高级注意事项

统计解释:

  • 从统计学的角度来看,这个分数可以被视为概率的乘积,类似于统计学中用于评估组合事件可能性的度量。

上下文依赖性的调整:

  • 在实践中,可能需要进行调整以考虑单词的上下文依赖性,因为单词的稀有性可能会根据其使用的上下文而发生显着变化。

标准化和缩放:

  • 考虑到公式的乘法性质,可以应用归一化或缩放技术来确保分数在可管理的范围内,特别是对于较长的响应。

三、测量泛化

        为了定量评估LLM处理特异性和独特性的能力,我们可以采用几种数学和统计方法:

3.1 多样性指标

        像困惑度这样的指标可以衡量模型处理特定和独特查询中固有的不确定性和可变性的程度。

单词序列W的困惑度定义为:

在哪里,

  • Perplexity( W ) 表示单词序列W的困惑度。
  • 指数函数内的表达式计算序列中每个单词wi​的平均负对数概率(给定其前面的单词)。
  • N是序列中的单词总数。
  • 较低的困惑度值表明该模型能够更好地预测单词序列,反映了处理语言的更高水平的流畅性和多样性。

3.1.1 理论基础

植根于信息论:

  • 困惑度源自信息论,特别是熵的概念,它衡量概率分布中的不确定性或意外程度。
  • 术语 log P ( wi ∣ w 1​,…, wi −1​) 计算每个单词wi​在给定上下文的情况下的惊喜意外程度。概率越低,惊喜就越大。

平均对数概率:

  • 该方程计算单词序列的平均负对数概率。该平均值表明模型在给定上下文中预测每个后续单词的效果如何。

3.1.2 对LLM的影响

量化响应多样性:

  • 较低的困惑度分数表明LLM可以有效地预测序列中的单词,这表明模型的训练和测试数据之间具有良好的拟合度。
  • 较低的困惑度通常与更好的语言流畅性和连贯性相关,这意味着该模型可以处理各种查询,同时保持上下文的适当性。

建模语言不确定性:

  • 困惑度有效地捕捉了模型语言生成过程中的不确定性或随机性。在响应多样性的背景下,它衡量模型在广阔的语言可能性领域中的驾驭能力。

评估语言模型性能:

  • 困惑度是比较不同语言模型或同一模型的不同版本的关键指标。它提供了一种标准化的方法来评估模型理解和生成语言的程度。

3.1.3 先进的分析视角

统计解释:

  • 从统计学上来说,困惑度可以被视为概率模型预测样本有效性的衡量标准。它类似于测试集逆概率的几何平均值,按单词数进行归一化。

处理长序列:

  • 对于较长的序列,低概率预测对困惑度的影响更加明显,使其成为衡量模型在扩展文本上保持一致性的能力的敏感指标。

局限性和情境化:

  • 虽然困惑度是一个有用的指标,但它应该与其他指标(如连贯性、相关性和新颖性)结合起来。它不直接衡量响应的语义适当性或创造性。

3.2 嵌入空间分析

        通过检查模型响应的向量表示,我们可以评估响应与常见模式的偏离程度,表明更高水平的创造力和泛化能力。

偏差分数定义为:

在这里,

  • DeviationScore 表示响应中的词向量与平均词向量的平均偏差。
  • N是响应中的总字数。
  • v ( wi ​) 是单词wi​的向量表示。
  • v_ avg​是平均词向量,通常在大型语料库上计算。
  • 范数 ∥ v ( wi ​)− v_ avg​∥ 衡量词向量v ( wi ​) 和平均向量v_ avg​ 之间的欧氏距离(或其他适当的范数),量化每个词相对于平均值的偏差。响应中所有单词的这些距离的平均值给出了偏差分数。

3.2.1 数学解释

向量空间分析:

  • 该方程在向量空间中运算,其中单词(或标记)表示为向量。这里,v ( wi ​)表示单词wi​的向量表示。
  • vavg v avg​是平均向量,通常在大型文本语料库上计算,表示语义空间中的“常见”或“平均”单词。

基于规范的距离测量:

  • 术语 ∥ v ( wi ​)− v avg​∥ 测量每个单词向量与平均向量之间的欧几里德距离(或其他适当的范数),量化每个单词与语言范数的“远”程度。

距离聚合:

  • N (响应中的单词数)的求和和归一化提供了整个响应偏差的聚合度量。

3.2.2 对语言建模的影响

评估独特性和创造力:

  • 较高的偏差分数表明,平均而言,响应中的单词与常见的语言用法相距较远,表明语言使用的独特性或创造性。
  • 对于需要使用新颖或创造性语言的任务(例如诗歌生成或创造性写作),这种测量方法特别有洞察力。

了解模型行为:

  • 该指标揭示了LLM如何驾驭语义空间。它表明模型是否倾向于生成常见或预期的单词选择的响应,或者是否冒险进入更独特的语言领域。

平衡新颖性与连贯性:

  • 虽然高偏差分数可能表明新颖性,但平衡这一点与响应的连贯性和上下文适当性至关重要。极高的分数可能表明反应无意义或与上下文无关。

3.2.3 高级注意事项

语义空间动力学:

  • 由训练数据和模型架构塑造的语义空间的性质对于词向量的分布方式起着至关重要的作用。这会影响偏差分数的解释。

规范化和标准化:

  • 根据模型和数据集,在计算偏差分数之前可能需要对向量进行归一化或标准化,以确保不同模型或数据集之间的比例一致。

上下文和动态词向量:

  • 在 BERT 或 GPT 等模型中,词向量是根据上下文确定的。这意味着单词的向量可能会根据其周围的单词而变化,从而为偏差分析增加了一层复杂性。

四、适应性评估策略

        在探索了评估闭箱LLM的方法后,我们认识到,尽管对其培训数据和内部运作的可见性有限,但有效的评估是可以实现的。

        通过关注输出分析,我们可以解释这些模型生成的响应,深入了解它们的新颖性、创造力和泛化能力。

        尽管模型设计和训练数据缺乏透明度带来了挑战,但我们建立的方法可以通过有针对性和多样化的测试策略来全面了解模型的优势和局限性。

多样化、全面的查询设计:

  • 如图所示,为了克服这些挑战,评估者必须设计一系列涵盖不同主题和语言结构的测试查询。这种方法有助于探索模型处理不同类型输入并生成不同响应的能力。
  • 在测试中包含边缘案例、罕见场景或创意提示可以深入了解模型的新颖性生成和泛化能力。

根据已知标准进行基准测试:

  • 利用既定基准并与已知模型进行比较可以提供闭箱LLM绩效的相对衡量标准。这种比较分析可以深入了解模型的一般功能和局限性。

利用外部工具和框架

自动分析工具:

  • 使用外部工具进行语言和语义分析可以帮助量化LLM回答的连贯性、创造力和相关性等方面,即使无需直接访问模型的内部结构。
  • 情感分析、主题建模和其他 NLP 工具可以提供定量测量来补充定性评估。

持续监控和迭代测试:

  • 随着时间的推移进行持续评估,并对测试方法进行迭代调整,有助于更全面地了解模型的功能,并根据观察到的性能调整评估策略。

五、结论

        与任何其他 NLP 或机器学习技术相比,LLM士能够有效响应高特异性查询并在响应中表现出独特性,这证明了它们的泛化能力。通过采用数学和统计方法,我们可以深入了解这些模型的理解和创造力的深度和广度。随着LLM的不断发展,探索他们在这些条件下的行为不仅可以衡量他们的表现,还可以指导我们为未来设计更好、更稳健的模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/192646.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【java智慧工地源码】智慧工地物联网云平台,实现现场各类工况数据采集、存储、分析与应用

“智慧工地整体方案”以智慧工地物联网云平台为核心,基于智慧工地物联网云平台与现场多个子系统的互联,实现现场各类工况数据采集、存储、分析与应用。通过接入智慧工地物联网云平台的多个子系统板块,根据现场管理实际需求灵活组合&#xff0…

SSM SpringBoot vue社团事务管理系统

SSM SpringBoot vue社团事务管理系统 系统功能 登录 个人中心 人员信息管理 考勤信息管理 空闲时间管理 现金日记账管理 经费预算管理 物品租借管理 会议信息管理 活动信息管理 项目任务管理 公告通知管理 物资信息管理 开发环境和技术 开发语言:Java 使用框架:…

面试题:千万量级数据中查询 10W 量级的数据有什么方案?

文章目录 前言初版设计方案整体方案设计为:技术方案如下:CK 分页查询使用 ES Scroll Scan 优化深翻页耗时数据 ESHbase 组合查询方案ES 查询的两个阶段组合使用 Hbase RediSearchRedisJSON 优化方案RediSearch 性能数据RedisJSON 性能数据 总结 前言 在…

【msg_msg】corCTF2021-msgmsg 套题

前言 该套题共两题,一道简单模式 fire_of_salvation,一道困难模式 wall_of_perdition,都是关于 msg_msg 的利用的。这题跟之前的 TPCTF2023 core 的很像(应该是 TPCTF2023 core 跟他很像,bushi)。 其中 f…

传媒行业CRM:打造高效客户管理,提升品牌影响力

传媒行业充满竞争和变化,传媒企业面临着客户管理不透明、业务流程混乱、销售数据分析不足,无法优化营销策略和运营管理等问题。CRM系统是企业实现数智化管理的神器,可以有效解决这些问题。下面说说,传媒行业CRM系统推荐。 1、建立…

Java项目调用C/C++ SDK的方案汇总

Java项目调用C/C SDK的方案汇总 背景调研JNIJNativeJNAJavaCPP 背景 Java项目中需要调用到一个C项目,于是对目前通用的解决方案做了一些调研,这里做一个汇总。 调研 JNI JNI:Java Native Interface,JNI是一套编程接口&#xf…

基于社区电商的Redis缓存架构-库存模块缓存架构(下)

基于缓存分片的下单库存扣减方案 将商品进行数据分片,并将分片分散存储在各个 Redis 节点中,那么如何计算每次操作商品的库存是去操作哪一个 Redis 节点呢? 我们对商品库存进行了分片存储,那么当扣减库存的时候,操作…

PyEcharts快速上手_Python数据分析与可视化

PyEcharts快速上手 导入图表类型添加数据设置图表样式输出图表链式调用 导入图表类型 和其他库的导入方法一样,在绘图之前首先要在文件开头导入所需图表类型。 from pyecharts.charts import BarBar 类型是柱状图/条形图在 pyEcharts 中的英文名。 pyEcharts 中有…

vr工业制造流程3D模拟仿真可视化展示

工业仿真3D数字化展示系统具有多方面的独特之处,主要体现在以下几个方面: 1、真实感和交互性:该系统可以将实际的工业设备、产品、场景等进行数字化建模,通过三维图形技术将其呈现在计算机屏幕上,使用户可以在虚拟环境…

Python中的并发编程

目录 一、引言 二、Python中的线程 1、线程的概念 2、创建线程 3、线程同步和锁 4、线程池 三、Python中的进程 1、进程的概念 2、创建进程 四、Python中的异步IO 1、异步IO的概念 2、异步IO的实现 3、异步IO的并发执行 五、总结 一、引言 并发编程是一种计算机…

【漏洞复现】智跃人力资源管理系统GenerateEntityFromTable.aspx接口存在SQL注入漏洞 附POC

漏洞描述 智跃人力资源管理系统是基于B/S网页端广域网平台,一套考勤系统即可对全国各地多个分公司进行统一管控,成本更低。信息共享更快。跨平台,跨电子设备。智跃人力资源管理系统GenerateEntityFromTable.aspx接口处存在SQL注入漏洞,攻击者可通过该漏洞获取数据库中的信…

100W用户、8000W流量在线贺卡应用架构如何优化?

文章目录 🔊博主介绍🥤本文内容📢文章总结📥博主目标 🔊博主介绍 🌟我是廖志伟,一名Java开发工程师、Java领域优质创作者、CSDN博客专家、51CTO专家博主、阿里云专家博主、清华大学出版社签约作…

GOLAND搭建GIN框架以及基础框架搭建

创建GO环境文件夹 终端输入安装GIN go get -u github.com/gin-gonic/gin如果遇到超时错误 package golang.org/x/net/html: unrecognized import path "golang.org/x/net/html": https fetch: Get "https://golang.org/x/net/html?go-get1": dial tcp …

KubeShark: Kubernetes的Wireshark

Wireshark可以帮助我们抓取并分析网络数据包,理解网络中发生的事情,那是否有工具可以帮助我们理解在K8S集群中发生的事情,帮助排查集群故障,Kubeshark就是这样的工具。原文: KubeShark: Wireshark for Kubernetes[1] 简介 Wiresha…

【动态代理详解】

动态代理 知道什么是动态代理以及动态代理能干什么就可以 代理的概述 什么是动态代理 ​ 使用jdk的反射机制,创建对象的能力, 创建的是代理类的对象。 动态:在程序执行时,调用jdk提供的方法才能创建代理类的对象。jdk动态代理&…

【Oracle】数据库登陆错误:ORA-28000:the account is locked解决方法

问题描述 在连接Oracle数据库的时候出现了ORA-28000:the account is locked报错,登录账号被锁定,出现这种情况就需要将被锁定用户解锁。 解决方法 解锁方法就是通过用system账号登录数据库,然后修改被锁定账户状态,具体如下图所示…

51爱心流水灯32灯炫酷代码

源代码摘自远眺883的文章,大佬是30个灯的,感兴趣的铁汁们可以去看看哦~(已取得原作者的许可):基于STC89C51单片机设计的心形流水灯软件代码部分_单片机流水灯代码_远眺883的博客-CSDN博客 由于博主是个小菜鸡&#xff…

selenium+python

selenium 八大查找元素 from selenium import webdriver from selenium.webdriver.common.by import By# 创建一个 WebDriver 实例 driver webdriver.Chrome()# 打开网页 driver.get("https://www.baidu.com/")# 使用 find_element 方法查找元素 element driver.…

springboot 整合 Spring Security 上篇

1.创建springBoot 项目工程(spring6.0的底层、JDK17) 1.添加依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-security</artifactId></dependency>配置完成启动访问controller会出现登录…

prometheus部署及与grafana结合应用

一、prometheus 介绍 prometheus server 是 Prometheus组件中的核心部分&#xff0c;负责实现对监控数据的获取&#xff0c;存储以及查询。它会定期从静态配置的监控目标或者基于服务发现自动配置的自标中进行拉取数据&#xff0c;当新拉取到的数据大于配置的内存缓存区时&…