为什么每次有人大声通电话时,我就很烦躁...

文 | Chaos
编 | 小戏

不知你是否有过这样的体验,当你周围有人在大声讲电话时,你会不自觉的感觉到烦躁。为什么呢?有一种委婉的说法是因为你听到了不完整的对话。直白点说其实就是讲电话的人通过放大声音强行让你接收了他说的信息,但你又无法接受到电话那边的人所回复的信息,因此对这个讲电话的人,你也可能不知所云,心情自然变得烦躁。

正如我们以前在做阅读理解时经常碰到的问题“请结合上下文谈谈此处作者想要表达的思想感情” 一样,很多的自然语言处理的问题——诸如问答,对话,文本摘要等——都需要在一个丰富的文本环境下去预测某个单句的意思

近期 Google 的大佬们就对这一问题进行了深入细致的研究,他们提出句子的 Decontextualization (去情境化,注意这里不是 Bert ,并不是一个新的模型名,就是一个名词),目的是让句子都能表述自己的 Truth-Conditional Meaning (真值条件义)

论文题目:
Decontextualization: Making Sentences Stand-Alone

论文链接:
https://arxiv.org/pdf/2102.05169.pdf

定义

Definition 1 (Decontextualization)

Given a sentence-context pair , a sentence is a valid decontextualization of s if:
(1) the sentence is interpretable in the empty context; and (2) the truth-conditional meaning of in the empty context is the same as the truth-conditional meaning of in content 

这里涉及到的是一个句子文本对,其中是将被去情境化的句子,是包含句子的文本,那么作为的有效去情境化句子必须满足:(1)在没有上下文的情况下是可以被理解的;(2)句子所表达的真值条件义和在文本里的句子所表达的真值条件义是一致的。举个例子吧,如下图:

如果不结合上下文单看paragraph里灰色背景的句子,你就不知道是哪个队在什么比赛上的最好成绩是2018年决赛2-4输给了法国队。但是如果你看 Decontextualized Sentence,你就可以不再需要上下文,而直接明白文本里的灰色句子的意思,这个就是作者定义的去情境化。

那这个" Truth-Conditional Meaning " 又是什么呢?作者专门强调并且引用了一系列语义学理论。笔者并未深究,感觉就是"话语显义",也就是字面意思,不涉及含义以及引申义。还是引用上面的例子,换个语境如下图:

这里 Jon 说的话和之前文本里的句子一模一样,所以 Decontextualized Sentence 也可以沿用之前的句子,但是实际上语境里 Susan 问的是 Croatia 是否拿过冠军, Jon 的回答从表面上看并不直接,但却间接包含了 Croatia 并未夺冠的含义,这个含义在去情境化的句子里也没有直接表达。

这也就是在 Decontextualiation 过程中只要求字面意思一样,并不涉及含义,于是便出现了在两种不同语境里的同一句话实际上 Decontextualized 之后是一样的,这是不是真就是"去情境化"呢?无论你是在哪里"飙车",反正超速就得扣驾照分。

通过对" Truth-Conditional Meaning "的考究,我们确实可以看出 Google 大佬们工作真是细致,确实对现阶段的 NLP 模型来说,能理解话语显义感觉就很不错了,要是不久的将来, NLP 模型能理解你说的"内涵",那可真就厉害了。扯远了...拉回来,如图1所示,像" thus far "这样的额外的语境,在去情境化的过程中是不需要处理的。

任务

训练语言模型完成这样一个去情境化的任务其实是一个有监督的学习任务,既然是有监督的学习,就离不开"打标"。一个注释者——即打标的人,需要对一份包含目标句子(首尾用,和标注)的完整文本进行打标。

首先他需要判断这个句子是否可以去情境化,即标注 FEASIBLE 或者 INFEASIBLE, 如果例子被标 FEASIBLE ,那么注释者需要提供满足 Definition 1 的去情境化后的句子

被标 FEASIBLE 的句子指的是那些不需要或者只需稍微编辑就能去情境化的句子,而那被标 INFEASIBLE 的句子就是很难被去情境化的句子,比方说:

笔者碰巧学过物理,这句去情境化后应该是“金属的相变潜热与热容之比要比水高出许多,这个比值通常在400到1200之间”,但是这个过于专业就算去情境化后也很难被人理解,所以便被标注 INFEASIBLE ,此外还有一些叙述性比较强或者过于依赖上下文的句子也很难被去情境化。

对于被标注为 FEASIBLE 的句子,编辑的方式也是有套路的,通常可以分为4大类:

(1) Name Completion , Pronoun / NP Swap 名称补全和代词转换。
(2) DM Removal 包括对一些语篇标记( Discourse Markers )词的删除,比方说( therefore )。
(3) Bridging , Global scoping 包括加一些短语(通常是介词短语)来对某些名词词组或者是整个句子进行补充说明。
(4) Addition 通常是加入一些背景元素增强可读性。

示例如下:

数据与模型

数据使用的是英文维基百科,采用人工打标的方式,注释者都是美国本土的 English speaker 。总共28个注释者,其中11个注释者注释了超过1K个 examples (有必要说的这么详细吗?额, Google 大佬,有必要,为了保持样本的一致性,那为什么不让1个人注释?嘿嘿,你想累死那位老哥...) 。

数据统计如下:

仔细看一下数据统计,你就会发现其实绝大部分的 examples 都是那11位注释者注释的(所以说是一致性嘛),这个里面文本长度( par.len )和句子长度( sent.len )都是用字节( bytes )计算的,其中训练集只有一个 Reference ,验证和测试集有5个 Reference ,另外 Expert 那一行的样本是作者们自己注释的。

作者提供了两套模型用来进行自动去情境化,一个是指代消解模型,还有一个是 Seq2seq 模型,数据的输入形式如下:

其中是分隔符,是维基百科的页标题,是该段文本的小标题,是文本里的句子,是目标句子。

指代消解模型使用的是开源的 SpanBert-Large (保持原始的超参数),对输入的 Sequence 采用这个模型,将所有和目标句子存在指代关系的部分都筛选出来,然后选择其中在文本里最靠前的和目标句有指代关系的实体进行替换,平均下来有36.5%的 examples 是通过这种方式改进的。

Seq2seq 模型采用的是 T5 模型,两个变种,一个是 Base 版本一个是11B,主要区别在模型容量上。

这里训练时将 Target Sequence 设置为 ,其中

是去情境化后的句子,当时,是文本原句。

结果与评估

对于去情境化的可行性检测,也就是判断 FEASIBLEINFEASIBLE 的一个二分类问题, T5 预测 FEASIBLE 达到了88%的准确率, T5-11B 达到了89%的准确率,都优于人的判断(85%的准确率),再次说明预训练语言模型在分类问题上的良好表现。另外指代消解模型并不能判断可行性。

对于去情境化句子生成结果,作者给了4种评估方法:(1) Length Increase :长度增量为
(2) % edited:在去情境化的过程中,修改部分所占得比例;
(3) Sentence match:句子匹配程度, 描述模型预测结果和 Reference 之间的相似性;
(4)  SARI(System Output Against References And Against The Input Sentence):这里主要是将模型预测结果和 Reference 一起和输入原句进行对比,采用一元模型,对每个 Reference ,可以算它的 Add Edits,也就是在 Reference 里而不在原句里的部分,同理也可以计算 Delete edits ,以这个为标准,计算模型输出在 Add/Delete Edits 上相对于 Reference 的准确率/召回率/F1值,作者主要以 SARI 作为模型的评估标准。

评估结果如下:

可以看出 T-5 模型在各项指标上明显优于指代消解模型,其中容量更大的 11B Model 表现更好 而且在 Sentencematch 上更是超过了 Human ,不过 Human 在更具代表性的 SARI 值上表现是最好的

作者还做了人工评估,也就是将模型输出与注释者注释的句子放在一块让专家评估。主要有两个指标,一是语句的流畅程度,二是是否正确的去情境化了。评估结果模型预测在流畅程度上得分88%,在正确性上得分67.5%,Human Reference 在流畅程度上得分84.5%,在准确性上得分 78.5%。

另外作者还做了一个喜好测试,即让两位专家选择是更喜欢模型的输出还是注释者的注释,也可以两者都不选。结果如下:

行与列分别代表两位专家,结果还是比较一致的,两位专家还是更喜欢注释者的句子,不过对于一些 Samples 专家也会选择T5模型的输出。

总结

论文作者定义了何为句子的去情境化,构建了一个用于此任务的数据集,而且还给出了一个去情境化相对效果还不错的模型( T5-11B )。

总的来说,对于一个相对较新的NLP任务,作者们在任务的确立,数据集的构建,模型的筛选,甚者到最后的应用与推广等方方面面都做了细致的工作,确实给众多NLPer树立了一个良好的榜样!

寻求报道、约稿、文案投放:
添加微信xixiaoyao-1,备注“商务合作”

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478562.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 367. 有效的完全平方数(二分查找)

1. 题目 给定一个正整数 num,编写一个函数,如果 num 是一个完全平方数,则返回 True,否则返回 False。 说明:不要使用任何内置的库函数,如 sqrt。 示例 1: 输入:16 输出&#xff1…

美团点评联盟广告场景化定向排序机制

在美团点评的联盟广告投放系统(DSP)中,广告从召回到曝光的过程需要经历粗排、精排和竞价及反作弊等阶段。其中精排是使用CTR预估模型进行排序,由于召回的候选集合较多,出于工程性能上的考虑,不能一次性在精…

论文浅尝 - COLING2020 | 一种用于跨语言实体对齐的上下文对齐强化跨图谱注意力网络...

笔记整理 | 谭亦鸣,东南大学博士生来源:COLING 2020链接:https://www.aclweb.org/anthology/2020.coling-main.520.pdf本文发现,目前基于GCN的对齐方法都是分别考虑两个KG,然后分别学习它们的embedding,并认…

LeetCode 744. 寻找比目标字母大的最小字母(二分查找)

1. 题目 给定一个只包含小写字母的有序数组letters 和一个目标字母 target,寻找有序数组里面比目标字母大的最小字母。 数组里字母的顺序是循环的。举个例子,如果目标字母target ‘z’ 并且有序数组为 letters [‘a’, ‘b’],则答案返回…

超越YOLOv5,1.3M超轻量,高效易用,这个目标检测开源项目太香了!

这个目标检测神器简直香炸了!它不仅连续登录Github全球趋势榜,拥有的全球尖端算法论文也接连登录全球技术趋势榜PaperWithCode。这个神器就是刚刚全面升级的PaddleDetection2.0!它全面兼顾高性能算法、便捷开发、高效训练及完备部署&#xff…

MyFlash——美团点评的开源MySQL闪回工具

由于运维、DBA的误操作或是业务bug,我们在操作中时不时会出现误删除数据情况。早期要想恢复数据,只能让业务人员根据线上操作日志,构造误删除的数据,或者DBA使用binlog和备份的方式恢复数据,不管那种,都非常…

论文浅尝 - ACL2020 | 用于多媒体事件提取的跨媒体结构化公共空间

笔记整理 | 王琰,东南大学来源:ACL 2020链接:https://arxiv.org/pdf/2005.02472.pdf概述本论文引入一项新任务:多媒体事件提取(ME),该任务旨在从多模态中抽取出事件和其论点(M2E2)。此外&#x…

屠榜CV还不是这篇论文的终极目标,它更大的目标其实是……

文 | 魏旭编 | 橙橙子,小戏当 BERT 模型出来之后,Transformer 架构基本成为 NLP 任务的底色。诸如 Roberta、XLNet、ELECTRA、GPT3 等刷榜各类 NLP 任务的模型,无一不是基于 Transformer 框架。无疑,Transformer 开启了 NLP 的统治…

day01『NLP打卡营』实践课1:词向量应用演示

Day01 词向量作业辅导 本教程旨在辅导同学如何完成 AI Studio课程——『NLP打卡营』实践课1:词向量应用展示 课后作业。 1. 选择词向量预训练模型 在PaddleNLP 中文Embedding模型查询PaddleNLP所支持的中文预训练模型。选择其中一个模型,如中文维基百…

流计算框架 Flink 与 Storm 的性能对比

1. 背景 Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm(以下简称“Storm”)在美团点评实时计算业务中已有较为成熟的运用(可参考 Storm 的可靠性保证测试),有管理平台…

论文浅尝 - AAAI2021 | 基于对比学习的三元组生成式抽取方法

作者 | 叶宏彬,浙江大学博士研究生,研究方向:知识图谱、自然语言处理接收会议 | AAAI2021论文链接 | https://arxiv.org/pdf/2009.06207.pdf摘要在自然语言处理和知识图谱领域的信息提取中,三元组抽取是必不可少的任务。在本文中&…

LeetCode 101. 对称二叉树(递归循环)

1. 题目 给定一个二叉树,检查它是否是镜像对称的。 例如,二叉树 [1,2,2,3,4,4,3] 是对称的。1/ \2 2/ \ / \ 3 4 4 3 但是下面这个 [1,2,2,null,3,null,3] 则不是镜像对称的:1/ \2 2\ \3 3来源:力扣(LeetCode&#x…

剑桥大学终身教授T.S.:7大机器学习算法与应用案例

机器学习和人工智能可被应用在文本翻译、面部检测和识别、自动驾驶汽车和诸如国际象棋和围棋一类的极为复杂的控制类游戏等领域,其最新发展日益受到越来越高的关注。本次为大家推荐的科研项目,还是来自于ViaX盐趣,导师是来自剑桥大学计算机系…

会议交流 | 2021年全国知识图谱与语义计算大会(CCKS 2021)征稿通知

2021年全国知识图谱与语义计算大会征稿通知(第一轮)First Call for Full Papers2021年8月18日-21日,广州征稿截止: 2021年5月10日第十五届全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Co…

美团外卖自动化业务运维系统建设

美团外卖业务在互联网行业是非常独特的,不仅流程复杂——从用户下单、商家接单到配送员接单、交付,而且压力和流量在午、晚高峰时段非常集中。同时,外卖业务的增长非常迅猛,自2013年11月上线到最近峰值突破1600万,还不…

把数据集刷穿是什么体验?MetaQA已100%准确率

文 | 炼丹学徒编 | 小轶开始炼丹以来,估计很多小伙伴都和我一样幻想过直接把数据集做到 100% 准确率,然后大吼一声:这数据集,我做到头了!然而愿望终究是愿望。大多时候,看着自己手头上用了浑身解数才提了零…

LeetCode 116. 填充每个节点的下一个右侧节点指针(递归循环)

文章目录1. 题目2. 解题2.1 递归2.2 循环2.3 O(1)空间复杂度1. 题目 给定一个完美二叉树,其所有叶子节点都在同一层,每个父节点都有两个子节点。二叉树定义如下: struct Node {int val;Node *left;Node *right;Node *next; }填充它的每个 n…

大圣魔方——美团点评酒旅BI报表工具平台开发实践

当前的互联网数据仓库系统里,数据中心往往存放了大量Cube化或者半Cube化的数据。如果需要将这些数据的内在关系体现出来,需要写大量的程序和SQL来发现数据之间的内在规律,往往会造成用户做非常多的重复性工作;而且由于没有数据校验…

基于知识图谱的智能问答方案

基于知识图谱的智能问答方案:https://cloud.tencent.com/developer/article/1661504 基于知识图谱的智能问答方案2020-07-142020-07-14 15:57:50阅读 9950三个角度理解知识图谱2012年谷歌首次提出“知识图谱”这个词,由此知识图谱在工业界也出现得越来越…

论文浅尝 - ACL2020 | 用于实体对齐的邻居匹配网络

笔记整理 | 谭亦鸣,东南大学博士来源:ACL 20链接:https://www.aclweb.org/anthology/2020.acl-main.578.pdf1.介绍图谱之间的异构差异是建立实体对齐的一个主要挑战,本文提出了Neighborhood Match Network (NMN),用于处…