论文浅尝 | 重新审视语言模型与知识库的关系

689a24ad66eb8fae4022726512ae43af.png

笔记整理:陈卓,浙江大学在读博士,主要研究方向为低资源学习和知识图谱

论文链接:https://arxiv.org/pdf/2106.09231

发表会议:ACL 2021

动机

这篇文章类似于是批判性的文章,反驳的之前EMNLP2019的一篇文章knowledge models as knowledge bases?这篇文章提出了一个观点:语言模型是一种知识库,因为它可以回答一些带有知识性质的完形填空问题。这篇文章重新审视了这个观点,做了三大部分的实验,来证明语言模型不是一个可靠的知识库。首先抛出疑问,这种MLM的模型预训练语言模型它是否是一个可靠的知识库?针对这个疑问,作者进行了以下两个步骤的测试:

(1)首先是找出MLM在知识相关任务上取得提升的核心因素到底是什么?

(2)外部的信息是如何去影响模型的一个预测结果的。

得到最后结论之前作者定义了三种范式:分别是基于prompt、case、context。把它们分别就是用中文形象表示:

(1)第一种就是直接发问,类似于问斯蒂夫乔布斯是出生在哪,就直接给了“Jobs was born in [MASK].”。

(2)第二部分举三反一,作者举了一个例子,奥巴马出生在夏威夷,那么乔布斯出生在哪?

(3)第三个检索知识,就是说作者用jobs was born in到知识库去检索一段话,得到一个知识作为模型的先验来辅助后面的识别。

作者总结的这三种方式分别最后证明现在的MLM不是可靠的这种外部知识提取器,接下来进行展开。

实验

实验分为三部分。

第一部分是基于prompt的方法。作者构造一个新的数据集WIKI-UNI(是专门针对于之前emnlp那篇文章中LAMA数据集所构造了一个针对性数据集),格式为完形填空形式,这里每一个填空都是需要某种意义上的外部知识,好比是三元组的头实体或者尾实体缺失。WIKI-UNI跟它的区别就WIKI-UN在于答案的分布。如图所示,

30fe73211c493134aa28003a4546efdb.png

原来的LAMA数据集是直接根据比如说Conceptnet或者是一些大型的知识库构造过来的,没有考虑里面答案的一些分布特征,即平时所讨论的长尾效应。像举了这个例子中的答案,从伦敦到墨西哥的一些城市,在原来的数据集里面,可能伦敦出现的次数很高,但墨西哥基本上就没有出现,所以出现这种答案分布不均的情况。WIKI-UN刻意规避了这一点,它让所有的答案的分布是均匀的,图左是作者的数据统计。

作者之所以这么做的目的就是说把这两个数据集的问题都放到模型里面去预测出来答案,结果发现预测出来的答案的分布确实很接近(哪怕真实的答案是均匀的,最后预测出来的答案的分布也是这种不均匀的长尾分布),所以作者得出了一个结论,认为语言模型里所谓的知识其实是一种data bias,即数据的偏见。模型在学习的时候哪些样例见的多一些,就更倾向于预测这种东西,而不是说把知识预测出来。作者在右边相关性分析里面也证明了这一点——两个数据集最后的答案分布相关性很高。此外作者还补充了一个实验,即设计了不同的prompt,区别在于有无subject。比如说史蒂夫乔布斯出生在什么地方,这个是full,然后把史蒂夫乔布斯也mask掉,只剩下出生在这样一个“出生在什么地方”的关系,这个就是prompt only。在这两种模式下的答案分布相关性也很高,这就说明不管是乔布斯也好,还是还是库克也好,只要关系是“出生在”那么他们可能都很大概率会预测出类似的地点,也就是它被 prompt的设定所影响。

f1aad10e8be46ed3aa0b7d4d3f2907c7.png

第二部分是基于case。像这个例子:“Obama was born in Hawaii. [SEP] Steve Jobs was born in [MASK].”。前面是给了一个例子作为参考,前人认为case起到知识引导的作用,但作者实验发现在这里case主要起一个type约束作用。

bd593678543b58192051eca8c9f0f1a6.png

或者说是起到一个对type的纠正作用作者统计了加了case之后纠正正确的答案中类型变化的比例,可以看到其实也都很高了,都在85%以上,然后纠正错误的答案中纠正错误就是本来是对的,加了case之后就答案错了。此外,这些里面哪怕是模型纠正错了,这些预测答案的类型也基本没有变化,所以作者认为效果的提升并不是因为预测的更好,而是对类型的纠正的更好。

另一个实验也证明了这个观点:同一类型答案的内部是没有什么提升的,就像这个图这样,对于一个正确答案在加了 case之后的提升有多少?作者为了一个over rank,和in-type rank两种情况。

7c642b91f9789a9e42c1099c182c464f.png

Overall意思是只考虑某个答案在加了case后提升了多少排名,可以看到整体的提升是很高的,证明加case是有用的。但是放到in-type情况下,发现性能的提高的和降低的以及不变的都类似于是平均的一种情况,意思就是说如果case的添加没有导致答案类型的变化,那么对于结果就几乎没有影响。

第三部分实验的结果是证明context-based的方法包含了显示/隐式的答案从而导致性能提升,这个证明结果对于论点我个人感觉帮助不大,并且结论在另外一篇论文(How Context Affects Language Models‘ Factual Predictions  AKBC 2020)里面已经被证明过了。这里不展开,大家可以看下图理解:

9bedfbc63219f715000509d65d1901f5.png

总结

该论文核心观点是语言模型不是一个可靠的知识库。此外还有许多可以借鉴的地方:

1.如果prompt上存在过拟合的可能,也许构造反事实样例是一种消除data bias的方法2.现有很多利用知识的相关方法衡量的都是dataset 拟合能力而不是知识提取的能力3.预测的结果(答案)的在不同数据集上分布和真实结果分布的差异衡量模型效果(究竟学到了什么)4.设计数据集的时候要考虑数据均衡的问题而不仅仅是数据随机划分。长尾效应应该被考虑(de-biased evaluation datasets)


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

728aba3aba929ae42b25117d71eaf197.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478051.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spark在美团的实践

本文已发表在《程序员》杂志2016年4月期。 前言 美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提…

LeetCode 958. 二叉树的完全性检验(层序遍历)

1. 题目 给定一个二叉树,确定它是否是一个完全二叉树。 百度百科中对完全二叉树的定义如下: 若设二叉树的深度为 h,除第 h 层外,其它各层 (1~h-1) 的结点数都达到最大个数,第 h 层所有的结点都连续集中在…

论文浅尝 | 通过学习中间步骤的监督信号改进多跳知识库问答

笔记整理:陈永锐,东南大学博士论文链接:https://arxiv.org/pdf/2101.03737.pdf概述该论文处理多跳知识库问答(KBQA)任务,主要关注训练过程在中间步骤缺乏监督信号的挑战。由于这一挑战,多跳 KBQ…

打破情感分类准确率 80 分天花板!更加充分的知识图谱结合范式

文 | SeverusNLP的研究者们一直都在尝试,怎么样让模型像人类一样,学会“知识”。而最直观的想法莫过于将人类已经总结出来供机器解读的“知识体系”,及其嵌入表示作为额外的特征添加到NLP模型之中。至少,从直觉上看,将…

分布式块存储系统Ursa的设计与实现

引言 云硬盘对IaaS云计算平台有至关重要的作用,几乎已成为必备组件,如亚马逊的EBS(Elastic Block Store)、阿里云的盘古、OpenStack中的Cinder等。云硬盘可为云计算平台带来许多优良特性,如更高的数据可靠性和可用性、灵活的数据快照功能、更…

LeetCode 919. 完全二叉树插入器(层序遍历队列)

1. 题目 完全二叉树是每一层(除最后一层外)都是完全填充(即,结点数达到最大)的,并且所有的结点都尽可能地集中在左侧。 设计一个用完全二叉树初始化的数据结构 CBTInserter,它支持以下几种操作…

开源开放 | 中文相对复杂词汇识别数据集RCWI-Dataset(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/rcwi-dataset开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:北京语言大学(阙孟溪、张宇飞、于东)1. 摘要中文领域的词汇复杂度评估资源较为匮乏&#x…

提升 NLP 实战技能的一点建议

作为最典型的 AI 领域之一,NLP 这些年也是越来越热门,基本上是各大厂必备了。随着 OpenAI 等技术的诞生、迁移学习等技术的成功应用,使得 NLP 技术在搜索、推荐、信息流、互联网金融、社交网络等领域不断发展壮大。与此同时,NLP 工…

深入FFM原理与实践

FM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团技术团队在搭建DSP的过程中,探索并使用了FM和FFM模型进…

LeetCode 993. 二叉树的堂兄弟节点(层序遍历)

文章目录1. 题目2. 解题2.1 层序遍历2.2 递归查找1. 题目 在二叉树中,根节点位于深度 0 处,每个深度为 k 的节点的子节点位于深度 k1 处。 如果二叉树的两个节点深度相同,但父节点不同,则它们是一对堂兄弟节点。 我们给出了具有…

论文浅尝 | IRW:基于知识图谱和关系推理的视觉叙事框架

笔记整理:孙悦,天津大学 链接:https://www.aaai.org/AAAI21Papers/AAAI-3382.XuC.pdf动机视觉叙事是生成一个短篇故事来描述有序图像流的任务。与视觉字幕不同,故事不仅包含事实描述,还包含未出现在图像中的想象概念。…

薅羊毛 Colab使用外部数据的7种方法!

文 | Coggle源 | Coggle数据科学Colab作为非常强大且优惠的计算平台,一直广受大家喜爱。可以随时随地使用,还有免费的GPU可以薅羊毛。那么如何在Colab中使用外部数据集,来完成竞赛呢,本文将给出几种常见的方法。方法1:…

高可用性系统在大众点评的实践与经验

背景 所谓高可用性指的是系统如何保证比较高的服务可用率,在出现故障时如何应对,包括及时发现、故障转移、尽快从故障中恢复等等。本文主要以点评的交易系统的演进为主来描述如何做到高可用,并结合了一些自己的经验。需要强调的是&#xff0c…

图灵奖大佬+谷歌团队,为通用人工智能背书!CV 任务也能用 LM 建模!

文 | ZenMoore编 | 小轶图灵奖大佬 Geoffrey Hinton 的团队和 Google Brain 团队近日发布新工作 Pix2seq,将 CV 经典任务 目标检测 转换为了语言模型的下游任务。这就很有意思了朋友们!因为这是一个很一般化的范式!也就是说,不光是…

论文浅尝 | 异构图 Transformer

笔记整理:许泽众,浙江大学博士在读论文链接:https://arxiv.org/abs/2003.01332本文主要提出一种处理异构图的方法,所谓异构图(Heterogeneous graph)是指在一个图中会出现不同类型的边和节点的图。早期对于图…

LeetCode 1145. 二叉树着色游戏(计算节点个数)

1. 题目 有两位极客玩家参与了一场「二叉树着色」的游戏。游戏中,给出二叉树的根节点 root,树上总共有 n 个节点,且 n 为奇数,其中每个节点上的值从 1 到 n 各不相同。 游戏从「一号」玩家开始(「一号」玩家为红色&a…

常见的时间序列预测模型python实战汇总

最完整的时间序列分析和预测(含实例及代码):https://mp.weixin.qq.com/s/D7v7tfSGnoAqJNvfqGpTQA 1 时间序列与时间序列分析 在生产和科学研究中,对某一个或者一组变量 x(t)x(t) ARIMA 模型对时间序列的要求是平稳型。因此&#x…

简单复读机LR如何成为推荐系统精排之锋?

文 | 水哥源 | 知乎saying1. 众所周知, 人类(划掉)推荐的本质是复读机2. 精排之锋,粗排之柔,召回之厚3. 在推荐里谈“过拟合”很容易给我们造成心理上的松懈,导致我们忽略环境,氛围等多种因素的…

从0到1构建美团压测工具

背景 美团内部的RPC服务大多构建在Thrift之上,在日常开发服务的过程中,需要针对这些服务进行压力测试(以下简称压测)来发现潜在问题。常用的方法有: 使用一些脚本语言如:Python、Ruby等,读取线上…

论文浅尝 | ERNIE-ViL:从场景图中获取结构化知识来学习视觉语言联合表示

笔记整理:朱珈徵,天津大学硕士链接:https://www.aaai.org/AAAI21Papers/AAAI-6208.YuFei.pdf动机现有的视觉语言预训练方法试图通过在大的图像文本数据集上的视觉基础任务来学习联合表示,包括基于随机掩码子词的掩码语言建模、掩码…