论文浅尝 | Language Models (Mostly) Know What They Know

1db5b4cced4602a1bdaa5af05ed26488.png

笔记整理:程思源、梁孝转,浙江大学在读硕士,研究方向为知识图谱的表示学习,自然语言处理,预训练

对于一个语言模型,我们最终希望得到一个“诚实”的人工智能系统,即语言模型需要准确并且忠实地评估它们对于自己的知识和推理的置信水平。AI模型进行自我评估(self-evaluation),首先需要让语言AI在回答问题的时候校准(Calibration)自己的答案。校准就是让后验概率和经验概率相匹配,这样就可以对模型给出的概率误判风险有一个直接的判断。比如模型给出一个预测说这个样本出现的概率为0.3,那也就是说在100个样本中约有30个样例,如果模型预测出来的概率与现实发生频率相一致,那这个模型就是已经校准好的模型。

为了验证AI语言系统能否对自己的答案进行校准,作者设计了三个主要的问题形式:

1、多项选择问题

93f69f8a23dba707695c85619a5d7659.png

2、将多项选择题中的最后一个选项替换为”None of the above”

3027e0a64324d5d26ea7f0dc895baa75.png

3、True/False问答

550662500f06df3c6e49673790b71c06.png

根据以上问题设定进行实验,看模型在以上三种情况下的校准情况。首先文章得出结论模型校准的好坏是与问题的设计形式是非常相关的,如左图所示,在BIG Bench任务下,设定任务1的效果就要比设定任务2的效果要好,如果对于问题设定进行改动,发现会很大程度上损害语言模型的校准能力。在增加了few-shot之后效果也有提升。右边的图中可以看出,模型校准的效果往往随着模型大小的增大,效果变得越好。

39c8efaab028c4dbdb97609b55e331ea.png

不经过Finetune让模型验证自己的输出:作者在TriviaQA、Lambada 、GSM8k 、Codex HumanEval、arithmetic problems等生成任务上进行验证,发现不经过finetune,通过一些少样本可以得到校准较好的self-evaluation模型,但是对于zero-shot的设定不太友好。在True/False任务中发现如果给模型展示T=1的samples可以有效的提升模型效果。

按现实情况来看语言模型往往是对自己的回答自信的,因为他选择的是自己预测最大概率输出,但是利用True/False模型依然能够将正确的samples和错误的samples给区分开来。

8b58f9f685e5b2e4bf87ade628dcec21.png

经过Finetuning让预测P(IK)“我知道这个答案的概率”,即询问模型你是否知道这个问题的答案,而不是简单去判断答案是否是正确的。实验挑选两种方式进行训练:

1、Value Head:把P(IK)训练成为一个额外的value head,再添加到模型的对数

2、Natural Language:这种方法就是要求AI模型从字面上回答“你知道这个答案的概率是多少”,同时输出一个百分比数据答案。

部分实验结果如图所示,可以看出在OOD设定下效果不理想(OOD实验设定是训练和验证的数据集是分开的)但是在所有训练集和测试集下面,模型就能很好划分开来。

5a230c8f9aa0e9175e7f6d74cedf254f.png

文章中还对P(IK)实验中的一些example进行分析,结果如下:

26c7f0518161fca61726ca8bc67f4b16.png

实验只针对最后一个token进行预测,可以发现对于越难的问题,P(IK)的值越低,说明模型能够知道哪些问题它能够很好回答,哪些是它回答不了的。

True/False问题:模型对于“none of the above”的选项是存在困惑的,所以作者采用另外一种问题设计形式,让模型判断给出的回答是否正确。作者利用多项选择任务中的答案选项。采样正确答案和随机选择的错误答案,创建一个包含两倍于之前多项选择问题的新评估集,要求模型确定每个答案是否正确。

0a6151d2debd3ba9f513033512d41e97.png

实验发现在模型住够大的情况下是存在很好的校准结果,但是在模型参数比较小的时候,发现模型并不具备很好的校准。

基于上述的结论,作者进一步探索了一个问题:语言模型能否判断自己的答案是否正确。作者首先让模型以生成的方式回答一个问题,并将问题与其回答的答案代入到True/False问题模版中,让模型判断自己的答案是否正确,并分析语言模型是否能做出有效的判断。

0d9931ba53aa20cfc2ee6a8c83a3c401.pngfe73bee1b851ec146076c51cb31fe0eb.pnge0ced1371652b5cc3fa3f97b64cdc787.pngf96d9a4051fb987ea5bb498b03149b53.png725fd6641c3f525068bb8700de153e11.png

实验发现,在大规模语言模型上,预测为”真”的概率分布能提供一个显著的“正确回答“和“错误回答”的区分,即模型能比较好地判断自己生成的答案正确与否。同时,作者也发现语言模型并不具备比较好的校准能力,特别地,预测为“真”的概率在一些样本上通常会落在50%左右。此外作者发现提供更多的模型回答的答案,以下面的模版构建True/False问题样本,能够提升模型自我评估的能力。

ad60286063e11ecc21ead2244d74b637.png

最后,作者提出了一个问题:语言模型经过训练,能否预测自己是否能回答任何给定的问题。为此,作者提出了两种方式:一种是Value Head方式,即在语言模型的结构上额外训练一个分类器,预测能否给出正确的回答;一种是Natural Language方式,即引入类似” With what confidence could you answer this question?”的提示词,训练模型生成如0%, 10%, 20%, · · · 100%的回答作为预测的概率。

实验发现,后者在结合少样本提示的OOD泛化设定上并没有取得特别大的收益,故作者在后续实验中采用了前者。作者发现,经过训练的模型能比较好地预测自身能否正确回答给定的问题,并且在TrivalQA数据集上有比较好的校准效果。

d4b22087887885ba72a293bddadd8c89.png65ed56725e3310d6113771ee038c6cae.png

此外,作者还分析了上述训练得到的模型OOD泛化的能力。作者通过在TrivalQA数据集上训练,在另外几个数据集上测试的方式,验证了模型具备一定的泛化能力,结果如下:

3111ab6bdc3b806dd38b717730a384f9.png

尽管在训练过程中没有引入提示材料(Materials/Hints),作者发现在测试的时候,在问题前面加上如下的提示信息,能够提升模型的效果。

c0a7a5fa92eb2cdb09a13fbc3fc06d96.png


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

b93f65ffb70dc3ff84752d99bfa5fdfe.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477468.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

百度AI技术盛宴来了!大咖齐聚解读CV/NLP/跨模态大模型技术!

随着人工智能步入工业大生产阶段,AI大模型正在加速走出实验室,在全球范围内逐步实现产业落地应用的突破。自2020年至今,越来越多的科技巨头和科研机构参与其中。去年12月,百度发布了全球首个知识增强千亿级大模型——鹏城-百度文心…

Spring Cloud实战小贴士:健康检查

今天在博客的交流区收到一条不错的问题,拿出来给大家分享一下。具体问题如下: 因为项目里面用到了redis集群,但并不是用spring boot的配置方式,启动后项目健康检查老是检查redis的时候状态为down,导致注册到eureka后项…

恕我直言,你的模型可能并没看懂 prompt 在说啥

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

开源开放 | 区域供冷供热系统及空调系统知识图谱

OpenKG地址:http://openkg.cn/dataset/less开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:浙江大学(赵阳,李婷婷,章超波)1、背景区域供冷供热系统及空调系统领域涉及知…

LeetCode 1334. 阈值距离内邻居最少的城市(最短路径Dijkstra)

1. 题目 有 n 个城市,按从 0 到 n-1 编号。给你一个边数组 edges,其中 edges[i] [fromi, toi, weighti] 代表 fromi 和 toi 两个城市之间的双向加权边,距离阈值是一个整数 distanceThreshold。 返回能通过某些路径到达其他城市数目最少、且…

五个同事想计算他们的平均工资,但公司不让吐露薪资,如何实现?

源 | Xpecya知乎大家好我是卖萌酱。昨天在知乎上刷到一个很有意思的问题:“五个同事决定计算他们的平均工资,在大家互相不告诉薪水的情况下,如何才能做到这一点?”。确实互联网公司是不让员工讨论薪资的,但通过一些神操…

基于Consul的分布式信号量实现

本文将继续讨论基于Consul的分布式锁实现。信号量是我们在实现并发控制时会经常使用的手段,主要用来限制同时并发线程或进程的数量,比如:Zuul默认情况下就使用信号量来限制每个路由的并发数,以实现不同路由间的资源隔离。 信号量(…

图谱实战 | 图视角下的信息抽取技术研究

导读:本次分享题目为《图视角下的信息抽取技术研究》,主要介绍:研究背景和意义国内外研究现状研究目标与内容主要成果与创新之处完成项目及发表论文情况分享嘉宾|郁博文博士 达摩院 算法专家编辑整理|王露出品平台&…

LeetCode 1335. 工作计划的最低难度(DP)

1. 题目 你需要制定一份 d 天的工作计划表。工作之间存在依赖&#xff0c;要想执行第 i 项工作&#xff0c;你必须完成全部 j 项工作&#xff08; 0 < j < i&#xff09;。 你每天 至少 需要完成一项任务。工作计划的总难度是这 d 天每一天的难度之和&#xff0c;而一天…

CCKS-面向数字商务的知识图谱比赛重磅上线,奖金等你来拿!

​CCKS 2022面向数字商务的知识图谱评测赛题介绍阿里巴巴商品数据规模庞大&#xff0c;商品知识图谱为海量异构的商品数据的组织、管理和利用提供了有效的方式。商品数据模态丰富&#xff0c;动态性高&#xff0c;数据存在噪声&#xff0c;这些都对商品的认知和理解带来了巨大挑…

基于Consul的分布式锁实现

我们在构建分布式系统的时候&#xff0c;经常需要控制对共享资源的互斥访问。这个时候我们就涉及到分布式锁&#xff08;也称为全局锁&#xff09;的实现&#xff0c;基于目前的各种工具&#xff0c;我们已经有了大量的实现方式&#xff0c;比如&#xff1a;基于Redis的实现、基…

LeetCode 1289. 下降路径最小和 II(DP)

1. 题目 给你一个整数方阵 arr &#xff0c;定义「非零偏移下降路径」为&#xff1a;从 arr 数组中的每一行选择一个数字&#xff0c;且按顺序选出来的数字中&#xff0c;相邻数字不在原数组的同一列。 请你返回非零偏移下降路径数字和的最小值。 示例 1&#xff1a; 输入&a…

警惕“不续签劳动合同”式裁员

文 | 是小酒呀源 | 知乎正文内容来源于作者 是小酒呀知乎&#xff0c;原文链接&#xff1a;https://zhuanlan.zhihu.com/p/499838511没想到裁员还有不续约这招&#xff1f;&#xff01;&#xff01;3月14日一大早&#xff0c;leader叫我去会议室&#xff0c;进入会议室后&#…

图谱实战 | OPPO自研大规模知识图谱及其在小布助手中的应用

分享嘉宾&#xff1a;李向林 OPPO编辑整理&#xff1a;吴祺尧 加州大学圣地亚哥分校出品平台&#xff1a;DataFunTalk导读&#xff1a;OPPO知识图谱是OPPO数智工程系统小布助手团队主导、多团队协作建设的自研大规模通用知识图谱&#xff0c;目前已达到数亿实体和数十亿三元组的…

LeetCode 1284. 转化为全零矩阵的最少反转次数(BFS 矩阵状态编码解码)

1. 题目 给你一个 m x n 的二进制矩阵 mat。 每一步&#xff0c;你可以选择一个单元格并将它反转&#xff08;反转表示 0 变 1 &#xff0c;1 变 0 &#xff09;。如果存在和它相邻的单元格&#xff0c;那么这些相邻的单元格也会被反转。&#xff08;注&#xff1a;相邻的两个…

Netflix Zuul与Nginx的性能对比

这是一篇翻译&#xff0c;关于大家经常质疑的一个问题&#xff1a;API网关Zuul的性能。原文&#xff1a;NETFLIX ZUUL VS NGINX PERFORMANCE作者&#xff1a;STANISLAV MIKLIK 如今你可以听到很多关于“微服务”的信息。Spring Boot是一个用来构建单个微服务应用的理想选择&…

LeetCode 773. 滑动谜题(BFS 地图状态转换的最短距离)

1. 题目 在一个 2 x 3 的板上&#xff08;board&#xff09;有 5 块砖瓦&#xff0c;用数字 1~5 来表示, 以及一块空缺用 0 来表示. 一次移动定义为选择 0 与一个相邻的数字&#xff08;上下左右&#xff09;进行交换. 最终当板 board 的结果是 [[1,2,3],[4,5,0]] 谜板被解开…

Spring Cloud实战小贴士:随机端口

太久没有更新&#xff0c;一时不知道该从哪儿开始&#xff0c;索性就从一个小技巧开始吧。 在之前的《Spring Cloud构建微服务架构》系列博文中&#xff0c;我们经常会需要启动多个实例的情况来测试注册中心、配置中心等基础设施的高可用&#xff0c;也会用来测试客户端负载均衡…

图谱实战 | 基于金融场景的事理图谱构建与应用

分享嘉宾&#xff1a;肖楠 京东科技 算法专家编辑整理&#xff1a;付村 云融创新出品平台&#xff1a;DataFunTalk导读&#xff1a;今天分享京东科技近期在事理图谱构建和应用方面的研究成果&#xff0c;主要分为以下五个部分&#xff1a;京东科技图谱简介金融事理图谱构建因果…

综述 | 基于深度学习的目标检测算法

计算机视觉是人工智能的关键领域之一&#xff0c;是一门研究如何使机器“看”的科学。图像目标检测又是计算机视觉的关键任务&#xff0c;主要对图像或视频中的物体进行识别和定位&#xff0c;是AI后续应用的基础。因此&#xff0c;检测性能的好坏直接影响到后续目标 追踪、动作…