DeepMind又放大招!用大型语言模型实现可信推理,距离模型可解释性又近了一步...

f739943adb385b159da808385bd0c3f4.jpeg

来源:AI前线

整理:核子可乐、冬梅

可解释性,已经成为当今机器学习研究与开发领域最紧迫的难题之一。尽管目前的大规模语言模型(LM)已经展现出令人印象深刻的问答能力,但其固有的不透明性却导致人们无法理解模型如何得出最终答案,因此用户难以论证答案合理性、也不易发现答案中的潜在错误。

DeepMind 研究团队在最新论文《使用大型语言模型实现可信推理》(Faithful Reasoning Using Large Language Models)中解决了这个问题。论文提出一套前向链选择推理模型,能够执行忠实推理并提供有效的推理跟踪,用以提高推理质量并帮助用户检查 / 验证最终答案。

b81617cff533bfe251fb17a57ea9453d.jpeg

论文地址:

https://www.researchhub.com/paper/1272848/faithful-reasoning-using-large-language-models

如何利用因果逻辑原理提高推理质量?

为了突破机器学习可解释性这道难关,DeepMind 研究团队在论文中展示了如何通过因果结构反映问题的潜在逻辑结构,借此过程保证语言模型忠实执行多步推理。研究团队的方法会将多个推理步骤联系起来共同起效,其中各个步骤均会调用两套经过微调的语言模型:其一用于选择,其二用于推理,借此产生有效的推理跟踪。

该方法还会对推理轨迹空间执行定向搜索,借此提高推理质量。

论文中提出的方法基于这一基本思想:如果给定问题的潜在逻辑结构,可以通过因果结构来反映,则语言模型可以忠实执行多步推理。为了实现这个目标,DeepMind 团队开发出选择推理(SI)作为系统主干。作为一种新颖架构,其中包含两套经过微调的语言模型,一套用于选择、一套用于推理。

c8a1c1be598a5890263419648f30d319.jpeg

分步前向推理主干会将各个推理步骤拆分为两个:

1)给定一个问题,由选择模型首先从上下文中选择一组语句;

2)推理模型随后从选择中计算一个语句,预测其含义(推理)

在推理步骤结束时,该推理会被添加至上下文内。通过迭代整个选择与推理过程,模型即可产生推理轨迹,而最终推理将用于回答问题。

8ce1714fbfcb898435db2704ff846ac6.jpeg

为了让模型能够确定何时停止推理,该团队还引入了一个两段式 halter。它会利用微调的语言模型来预测该模型能否在当前推理之下回答给定问题。如果模型无法以高置信度回答问题,则执行另一次选择推理迭代;如果 halter 的输出就是答案,则终止此过程并返回答案。假设选择推理循环持续到预先指定的迭代次数,但仍未得出答案,则系统不会直接给出最佳猜测、而是返回 “未知”。

研究人员观察到,在删除掉模型认为无法忠实回答的问题之后,模型性能得到显著提高。他们相信,这种方法有助于提高模型在以精确度(而非召回率)为优先的现实世界中的可信度与安全性。

5bb4e11c78807c04fab76b94533b925b.jpeg

4a864e096059a6907820fdbae0edfd51.jpeg

实际效果

在这次实证研究中,该团队将自己的选择推理系统与 Proof Writer(PW)和 EntailmentBankQA(EB)数据集上的基准模型进行了比较。他们提出的模型在 PW 和 EB 上分别实现了 88.1% 和 78.1% 的最终答案准确率,大大优于基准模型。

这项工作表明 DeepMind 提出的新方法确实能在不牺牲模型性能的前提下,通过多步推理对问题做出忠实回答。虽然该研究目前只侧重于给定上下文中的多步骤推理,但该团队已经计划在未来的工作中利用检索进一步充实上下文信息。

从实际性能来看,尽管存在“只能执行可信推理”的限制,该模型的实际表现仍然非常出色。考虑到如果一项技术要想安全普及、为大众所接受,就必须能够通过审计检验,此次研究可能代表语言模型正向着可解释性迈出重要一步。

原文链接:

https://medium.com/syncedreview/deepminds-selection-inference-language-model-system-generates-humanly-interpretable-reasoning-8707817ad098

https://www.researchhub.com/paper/1272848/faithful-reasoning-using-large-language-models

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

c9c538ee76b9f626fa61cd2490ce8c5b.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481631.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器智能的未来

来源:混沌巡洋舰今年8月,马斯克发布推文称将会在10月31日,更新有关脑机接口的最新进展。近几年,人工智能方面的发展一直在取得突破和进展,人们对这方面的期待和研究却一直没有停止。比尔盖茨2021年度书单重磅推荐了《千…

国科大prml15-目标检测

改进R-CNN缩放图片SPPNet允许不同大小输入,SPP(pooling)归一化到相同尺寸Fast RCNN1.SPP->Rol pooling;2.改进边框校准Smooth L1 loss;3.全连接加速Truncated SVDFaster RCNNRPN直接生成候选框(共享CNN),anchor boxMask R-CNN实例分割&…

大模型铺天盖地出现后,计算机科学终成「自然科学」

来源:选自Communications of the ACM作者:Subbarao Kambhampati(美国人工智能学会前主席)编译:机器之心编辑:rome rome当部分人工智能正偏离其工程本源,AI 研究的方向变化,超出了我们…

Transformers 如何模仿大脑的某些部分

来源:ScienceAI编译:白菜叶了解大脑如何组织和访问空间信息「我们在哪里」,「拐角处有什么」,「如何到达那里」,这仍然是一项艰巨的挑战。该过程涉及从数百亿个神经元中调用整个记忆网络和存储的空间数据,每…

国科大prml-往年习题

文章目录1 模式识别过拟合欠拟合概率图概率图-独立性HMM哲学理论adaboost贝叶斯贝叶斯判别贝叶斯判别-正态分布贝叶斯估计贝叶斯决策朴素贝叶斯半监督无监督聚类GMMEM极大似然估计判别函数线性判别和非线性判别线性判别函数的数量(M分类感知机势函数法9.势函数法&am…

城市大脑已经几岁?城市大脑发展成熟度的年龄评估模型

说明:该论文由科学院研究团队刘颖、刘锋于2022年7月发表在《科技导报》第14期,是对城市大脑发展成熟度的探索研究,为构建城市大脑发展成熟度评估规范提供参考。根据研究团队建立的评估模型,进行初步评估,提出目前城市大…

GMM

GMM 一个类一个正态分布N(μk,Σk)N(\mu_k,\Sigma_k)N(μk​,Σk​) 有监督无监督半监督目标函数Llogp(Xl,Yl∥θ)Σi1llogp(yi∥θ)p(xi∥yi,θ)Σi1llogαyiN(xi∥θyi)Llogp(X_l,Y_l\|\theta)\Sigma_{i1}^llogp(y_i\|\theta)p(x_i\|y_i,\theta)\\\Sigma_{i1}^llog \alpha_…

城市大脑已经几岁?城市大脑发展成熟度的年龄评估模型(修改版)

说明:该论文由科学院研究团队刘颖、刘锋于2022年7月发表在《科技导报》第14期,是对城市大脑发展成熟度的探索研究,为构建城市大脑发展成熟度评估规范提供参考。根据研究团队建立的评估模型,进行初步评估,提出目前城市大…

2022年 AI 技术成熟度曲线

来源:Gartner公司编辑:蒲蒲近日,Gartner发布了最新的《2022年人工智能技术成熟度曲线》报告,报告称尽早采用复合型人工智能(AI)、决策智能等AI技术将给企业机构带来明显的竞争优势,缓解AI模型脆…

国科大prml--SVM

拉格朗日的原始问题是minw,bmaxλLmin_{w,b} max_{\lambda} Lminw,b​maxλ​L对偶问题是maxλminw,bLmax_{\lambda} min_{w,b}Lmaxλ​minw,b​L 原问题拉格朗日对偶问题分界面最终参数hard marginminw12∥w∥2min_w \frac{1}{2}\|w\|^2minw​21​∥w∥2约束yi(wTxi)>1,对…

科学家们正在使用人工智能来构想革命性的新蛋白质

来源:ScienceAI编译:白菜叶6 月,韩国监管机构授权使用人类设计的新型蛋白质制成首个药物,即 COVID 疫苗。该疫苗基于研究人员近十年前通过劳动密集型试错过程创造的球形蛋白质「纳米颗粒」。现在,由于人工智能&#xf…

多模态认知计算

来源:图灵人工智能 日常生活中, 人类至少利用视觉, 听觉等多种感官理解周围环境, 通过整合多种感知模态, 形成对事件的整体认识. 为使机器更好地模仿人类的认知能力, 多模态认知计算模拟人类的“联 觉”(Synaesthesia), 探索图像, 视频, 文本, 语音等多模态输入的高…

知识表示与知识图谱--介绍

知识表示与知识图谱 知识支撑 人类理解需要机器也需要知识工程 手段:信息技术特点:高效率、大容量目标:获取并利用知识与信息的技术例子 第一个专家系统:费根鲍姆知识工程语言TUILI--1982--陆汝衿专家系统开发环‘天马’--1987--…

「图学习推荐系统」最新2022综述

来源:专知协同过滤是一种被广泛应用于推荐系统中的方法,其利用不同用户之间(或不同物品之间)的相似性关系来过滤和抽 取用户和物品的交互信息,从而进行用户推荐.近年来,图神经网络因其出色的表示学习性能和良好的可扩展性逐渐成为推荐 领域中的一种新兴的范式.文中从…

2知识图谱的生命周期

知识图谱的生命周期 知识图谱 知识建模--建立本体ontolog 建什么 概念、实体的类型概念/实体的关联关系要求:可靠性方法 自顶向下--专家手工形成数据模式自底向上--实体--类 利用现有的标准转换从现有的高质量数据源中进行映射:用知识图谱--抽象建模--来…

nlp1-介绍

能做什么? 自然语言处理: 如何让计算机能够自动或半自动地理解自然语言文本,懂得人的意图和心声?如何让计算机实现海量语言文本的自动处理、挖掘和有效利用,满足不同用户的各种需求,实现个性化信息服务&…

经纬张颖:给科研技术背景创始人的十条建议

来源:动脉橙果局编辑: Light出品: 科技智谷"给科研技术背景创始人的十条建议近一年,随着经纬在科技类公司的投资比例更大、金额更多,我和这类创始人们也进行了更高频次的交流,更多地了解了他们的困惑和…

nlp2-数学基础(信息论,概率论、词义消歧)

文章目录概率论信息论计算熵计算信息熵、条件熵、联合熵波利尼亚语熵率噪声信道模型建立一个翻译词义消歧(WSD贝叶斯最大熵的消歧方法概率论 在自然语言处理中,以句子为处理单位时一般假设句子独立于它前面的其它语句,句子的概率分布近似地符…

格鲁夫12年前惊人的预言,解释了今天美国对中国芯片所做的一切

来源: 未尽研究从芯片到光伏和动力电池,英特尔前董事长和CEO格鲁夫惊人地预言了美国制造业与科技当下所遇到的麻烦。他是一位以严厉著称的CEO,在美国金融危机刚结束之际,在商业杂志的封面发表了一篇犀利的评论。尤其是在美国硅谷如…