大模型对齐方法笔记四:针对领域问答来进行知识对齐方法KnowPAT

KnowPAT

KnowPAT(Knowledgeable Preference AlignmenT) 出自2023年11月的论文《Knowledgeable Preference Alignment for LLMs in Domain-specific Question Answering》,主要针对领域问答来进行知识对齐。

在领域问答有两个挑战:希望输出满足用户的要求、输出充分利用领域知识库。为了解决这些挑战,提出了如下图的三阶段的KnowPAT框架。

在这里插入图片描述

假设有一个QA数据集 D = ( q i , a i ) ∣ i = 1 , 2 , … , N \mathcal{D} = {(q_i, a_i) | i=1,2,\ldots,N} D=(qi,ai)i=1,2,,N q i q_i qi a i a_i ai是问答对,在论文中是对应的云端产品使用相关问答对,是由人工收集和标注的。

如果直接在数据集 D \mathcal{D} D上微调LLM M \mathcal{M} M(即通常所说的SFT),设prompt 模板为 I \mathcal{I} I,则优化目标如下(式中的 a i , j a_{i, j} ai,j a i a_i ai的第j个token, P M P_{\mathcal{M}} PM是模型 M \mathcal{M} M预测的token概率)。
L f t = − 1 ∣ a i ∣ ∑ j = 1 ∣ a i ∣ log ⁡ P M ( a i , j ∣ I , q i , a i , < j ) \mathcal{L}_{f t}=-\frac{1}{\left|a_i\right|} \sum_{j=1}^{\left|a_i\right|} \log P_{\mathcal{M}}\left(a_{i, j} \mid \mathcal{I}, q_i, a_{i,<j}\right) Lft=ai1j=1ailogPM(ai,jI,qi,ai,<j)

对于领域相关任务,一般会有一个领域知识库(domain KB) B \mathcal{B} B,现在流行的RAG就是领域领域知识库来让LLM在领域相关问题上回答更准确的一种解决方法。而KnowPAT采用的是如下三部分的框架来利用领域知识。

无监督知识检索

设有语义相似度检索器 H \mathcal{H} H,对于每个问题 q i q_i qi从KB B \mathcal{B} B中检索出top-k条最相似的知识并记为 K \mathcal{K} K​, 相似性以检索器编码后向量间的余弦相似度来衡量。

偏好数据集构建

偏好数据集分为风格偏好数据集(style preference set, SPS) P s \mathcal{P}_s Ps和知识偏好数据(knowledge preference set, KPS) P k \mathcal{P}_k Pk

风格偏好数据集 P s \mathcal{P}_s Ps构建过程

  1. 选择l-1个不同的LLM记为 M 1 , M 2 , … , M l − 1 \mathcal{M}_1,\mathcal{M}_2,\ldots,\mathcal{M}_{l-1} M1,M2,,Ml1,不同LLM的文本理解和表达能力不一样,所以可以生成不同风格的回答。
  2. 将上一步LLM生成的l-1个回答和金标准回答构成长度为l的风格偏好数据集 P s = { b 1 , b 2 , … , b l } \mathcal{P}_s = \{b_1, b_2,\ldots,b_l \} Ps={b1,b2,,bl}
  3. 为了与知识偏好数据集的长度一致,论文中取l为4,选了3个模型:ChatGPT、ChatGLM-6B、Vicuna-7B。
  4. 设金标准回答为 b 1 b_1 b1,ChatGPT生成的回答为 b 2 b_2 b2、ChatGLM-6B生成的回答为 b 3 b_3 b3、Vicuna-7B生成的回答为 b 4 b_4 b4,作者使用规则来确定这四个回答的偏好分数,认为三个模型的能力ChatGPT>ChatGLM>Vicuna,所以这四个回答的偏好分数顺序为 r 1 > r 2 > r 3 > r 4 r_1 > r_2 > r_3 > r_4 r1>r2>r3>r4

知识偏好数据集 P k \mathcal{P}_k Pk构建过程

  1. 对于问题a从知识库KB中检索出3个知识组合 K 1 \mathcal{K_1} K1 K 2 \mathcal{K_2} K2 K 3 \mathcal{K_3} K3 K 1 \mathcal{K_1} K1是top-k最相似的知识, KaTeX parse error: Undefined control sequence: \O at position 16: \mathcal{K_2}= \̲O̲是空集表示不包括任何检索知识, K 3 \mathcal{K_3} K3​表示top-k+1至top 2k相似的知识。
  2. 将不同的知识组合与prompt模板 I \mathcal{I} I一起输入到LLM M \mathcal{M} M生成答案,生成的三个答案与金标准一起组成知识偏好数据 P k = { c 1 , c 2 , c 3 , c 4 } \mathcal{P}_k = \{c_1, c_2, c_3,c_4 \} Pk={c1,c2,c3,c4}
  3. 设金标准回答为 c 1 c_1 c1,使用 K 1 \mathcal{K_1} K1生成的回答为 c 2 c_2 c2、使用 K 2 \mathcal{K_2} K2生成的回答为 c 3 c_3 c3、使用 K 3 \mathcal{K_3} K3生成的回答为 c 4 c_4 c4,作者发现与问题不那么相似的知识很容易误导LLM,所以这四个回答的偏好分数顺序为 r 1 > r 2 > r 3 > r 4 r_1 > r_2 > r_3 > r_4 r1>r2>r3>r4

微调和偏好对齐

前面构建的偏好数据集里偏好分数 r i r_i ri代表了偏好度,希望模型 M \mathcal{M} M能够对齐偏好。模型在给定prompt模板和问题 q i q_i qi后对每个回答token的平均对数似然如下式 S i S_i Si表示,分数越高表示模型认为回答有更高的概率:
S i = − 1 ∣ a i ∣ ∑ j = 1 ∣ a i ∣ log ⁡ P M ( a i , j ∣ I , q i , a i , < j ) \mathcal{S}_{i}=-\frac{1}{\left|a_i\right|} \sum_{j=1}^{\left|a_i\right|} \log P_{\mathcal{M}}\left(a_{i, j} \mid \mathcal{I}, q_i, a_{i,<j}\right) Si=ai1j=1ailogPM(ai,jI,qi,ai,<j)
KnowPAT先设计了如下的对齐目标,目的是为了对比偏好答案和非偏好答案,偏好分数只用来决定不同答案的顺序。式中的 σ \sigma σ是sigmoid函数。

L a l i g n = − ∑ i = 1 ∣ P ∣ − 1 ( log ⁡ σ ( S i ) + log ⁡ ∑ r j < r i σ ( − S j ) ) \mathcal{L}_{align}=- \sum_{i=1}^{|\mathcal{P}|-1} \left( \log \sigma (\mathcal{S}_i) + \log \sum_{r_j < r_i}\sigma (-\mathcal{S}_j) \right ) Lalign=i=1P1 logσ(Si)+logrj<riσ(Sj)

考虑到不同的回答的文本质量和偏好等级不一样,作者设计了如下式的自适应权重来控制每个偏好回答的影响,式中的 S m a x S_{max} Smax S m i n S_{min} Smin是偏好数据集里的最大和最小偏好分数。

μ i = S i − S m i n S m a x − S m i n \mu_i = \frac {S_i - S_{min}}{S_{max} - S_{min}} μi=SmaxSminSiSmin

使用自适应权重后,不同偏好分数的回答的影响可以动态调整,对齐目标相应地变为下式:
L a l i g n = ∑ i = 1 ∣ P ∣ − 1 μ i ( log ⁡ ( 1 + e − S i ) + log ⁡ ∑ r j < r i log ⁡ ( 1 + e S j ) ) \mathcal{L}_{align}= \sum_{i=1}^{|\mathcal{P}|-1} \mu_i \left( \log (1 + e^{-\mathcal{S}_i} )+ \log \sum_{r_j < r_i}\log ( 1 + e^{ \mathcal{S}_j}) \right ) Lalign=i=1P1μi log(1+eSi)+logrj<rilog(1+eSj)

KnowPAT的训练目标为对齐损失和微调目标之和,超参数 λ \lambda λ作为对齐损失的系数, P − 1 \mathcal{P}-1 P1用来归一化对齐损失。
L = L f t + λ ∣ P ∣ − 1 L a l i g n \mathcal{L} = \mathcal{L}_{ft} + \frac{\lambda} {|\mathcal{P}| -1} \mathcal{L}_{align} L=Lft+P1λLalign

注:1. 有一点疑问是前面构建了两个偏好数据集,微调里没有详细说明是一起训练还是分别训练,只写了一句看起来像是分别训练的话:For each preference set constructed in the previous section, the model is trained and optimized with such an objective. 2. 风格偏好数据集与RRHF的数据构建思路是一样的,论文代码也是基于RRHF的,不过对齐目标函数有所区别

参考资料

  1. KnowPAT: arxiv, github

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/21066.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Notepad++ 常用

File Edit search view Encoding Language Settings Tools Macro Run Plugins Window 文件 编辑 搜索 视图 编码 语言 设置 工具 宏 运行 插件 窗口 快捷方式 定位行 &#xff1a;CTRL g查找&#xff1a; CTRL F替换&am…

小白也能看得懂的基于HTML+CSS+JS实现的五子棋小游戏

五子棋是一种起源于中国的传统棋类游戏&#xff0c;具有悠久的历史。 基本规则 棋盘&#xff1a; 五子棋通常在一个 15x15 的棋盘上进行&#xff0c;但也可以在更大的棋盘上进行。棋盘上的每个交叉点称为一个“点”。 棋子&#xff1a; 五子棋使用黑白两色的棋子。两名玩家分别…

【竞技宝】欧冠:多特抢开局失败,皇马展示顶级防守反击

本赛季欧冠决赛结束,皇马在上半场被压制的情况下,2比0击败多特蒙德夺得队史第15座欧冠冠军奖杯。比赛中多特蒙德已经展现出了不俗的状态,可是面对老辣的皇马他们还是败下阵来,皇马用顶级的防守反击给多特上了一课。通过这场比赛,相信球迷们也清楚当今足坛硬实力不可或缺。 在许…

《Effective C++》《资源管理——14、在资源管理类中小心copying行为》

文章目录 1、Terms14:Think carefully about copying behavior in resource-managing classes方法一&#xff1a;禁止复制方法二&#xff1a;对底层资源使出“引用计数法”方法三&#xff1a;复制底部资源方法四&#xff1a;转移底部资源的拥有权 2、总结3、参考 1、Terms14:Th…

7-18 对象关系映射(orm_name)---PTA实验C++

一、题目描述 一开始看到对象关系映射&#xff0c;其实我是拒绝的。这三个词凑一块&#xff0c;能是给C初学者的题吗&#xff1f; 再仔细读需求&#xff0c;才发现在课设项目已经用过这功能。Object Relational Mapping&#xff08;ORM&#xff09;就是面向对象&#xff08;O…

计算机基础之:LSM树

使用过hbase、cassandra之类nosql数据库的小伙伴对LSM树结构应该有所耳闻&#xff0c;那么这种数据结构有哪些优劣势呢&#xff0c;本文做下简单介绍。 LSM&#xff08;全称&#xff1a;Log-Structured Merge Tree&#xff09;是一种广泛应用于现代数据库和存储系统的数据结构…

《平渊》· 柒 —— 大道至简?真传一句话,假传万卷书!

《平渊》 柒 "真传一句话, 假传万卷书" 对于 "大道至简"&#xff0c;不少专家可能会说出一大堆乱七八糟的名词, 比如这样&#xff1a; 所谓 "大道" 即支撑天地运转的 "系统自动力"&#xff0c;更具体地来说&#xff0c;即是天地人以…

快手游戏《无尽梦回》官宣开测:热血动作肉鸽来袭

易采游戏网最新消息&#xff1a;5月30日11:00&#xff0c;快手自研的梦境主题动作冒险手游《无尽梦回》正式宣布开启测试。此次测试名为“肉鸽进化实验”&#xff0c;旨在测试多角色技能交会的玩法。游戏将开放32人同局竞技&#xff0c;让玩家在激烈的战斗中角逐出唯一的胜利者…

HTML如何让文字底部线条不紧贴在文字下面(既在内容下方又超出内容区域)

hello&#xff0c;大家好&#xff0c;星途星途今天给大家带来的内容是如何让文字底部线条不紧贴在文字下面。 话不多说&#xff0c;先上效果图 简单来说就是padding和margin的区别。 在网页设计中&#xff0c;有时我们想要给某个元素添加一个装饰性的线条&#xff0c;比如底部…

过滤器、监听器、拦截器的区别

过滤器、监听器、拦截器的区别 过滤器&#xff08;filter&#xff09;、监听器&#xff08;Listener&#xff09;是JavaWeb的三大组件。而拦截器&#xff08;Interceptor&#xff09;是Spring框架中的。 我们主要是要分清除过滤器和拦截器的区别&#xff1a; 实现原理&#…

overleaf 写参考文献引用

目录 1、 新建.bib 文件 2、导入引用 3、在文档中引用参考文献 4、生成参考文献列表 1、 新建.bib 文件 在Overleaf项目中&#xff0c;你可以选择导入现有的 .bib 文件或在项目中创建一个新的 .bib 文件来管理你的参考文献。 导入.bib 文件&#xff1a; 在项目文件树中点击…

11. RBAC权限管理从零到一实现(二)

前端页面已提交至git https://github.com/SJshenjian/cloud-web默认用户名密码admin 1

MySql 数据类型选择与优化

选择优化的数据类型 更小的通常更好 一般情况下尽量使用可以正确存储数据的最小类型。更小的数据类型通常更快&#xff0c;因为它们占用更少的磁盘&#xff0c;内存和CPU缓存&#xff0c;并且处理时需要的CPU周期也更少。但也要确保没有低估需要存储值的范围。 简单就好 简单的…

【自然语言处理】【Scaling Law】Observational Scaling Laws:跨不同模型构建Scaling Law

相关博客 【自然语言处理】【Scaling Law】Observational Scaling Laws&#xff1a;跨不同模型构建Scaling Law 【自然语言处理】【Scaling Law】语言模型物理学 第3.3部分&#xff1a;知识容量Scaling Laws 【自然语言处理】Transformer中的一种线性特征 【自然语言处理】【大…

jmeter性能优化之tomcat配置与基础调优

一、 修改tomcat初始和最大堆内存 进入到/usr/local/tomcat7-8083/bin目录下&#xff0c;编辑catalina.sh文件&#xff0c;&#xff0c;默认堆内存是600m&#xff0c;初始堆内存和最大堆内存保持一致&#xff0c; 可以更改到本机内存的70%&#xff0c;对于Linux系统&#xff0…

conda创建虚拟环境并激活

1 conda activate base 2 conda creat -n aaa python** 3 conda activate aaa 4 interpreter里面去选择刚搞好的编译器 ...../conda.exe

【SpringBoot】四种读取 Spring Boot 项目中 jar 包中的 resources 目录下的文件

本文摘要&#xff1a;四种读取 Spring Boot 项目中 jar 包中的 resources 目录下的文件 &#x1f60e; 作者介绍&#xff1a;我是程序员洲洲&#xff0c;一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。公粽号&#xf…

【操作系统】Windows平台捕获崩溃现场底层原理,附代码亲测MiniDumpWriteDump

MiniDumpWriteDump 是一个Windows API函数&#xff0c;它属于DbgHelp.dll库&#xff0c;用于生成程序崩溃时的内存转储文件&#xff08;MiniDump&#xff09;。这个函数是Windows平台下用于捕获程序崩溃时的内存状态的常用方法之一。以下是MiniDumpWriteDump函数的原理和工作流…

【C++】ios::sync_with_stdio(false) 与 cin.tie(nullptr) 加速 IO

一、前言 之前写题遇到大数据量&#xff08;cin、cout 数据量级达到 1e5、1e6 &#xff09;&#xff0c;因为考虑 IO 性能报错 TLE&#xff0c;故选择 scanf、printf 替代 cin、cout&#xff0c;以解决问题。一直以来没有深入研究其中原因&#xff0c;只知关键词——同步&…

设计模式(十三)行为型模式---命令模式

文章目录 命令模式简介结构UML图具体实现UML图代码实现 命令模式简介 命令模式&#xff08;command pattern&#xff09;也叫动作模式或者事务模式。它是将请求&#xff08;命令&#xff09;封装成对象&#xff0c;使得可以用不同的请求对客户端进行参数化&#xff0c;具体的请…