论文浅尝 | 将结构预测作为增广自然语言间的翻译任务

笔记整理 | 叶宏彬,浙江大学计算机博士生


论文地址:https://openreview.net/pdf?id=US-TP-xnXI

摘要:我们提出了一个新的框架,即增强自然语言之间的翻译(Translation-between-Augmented Natural Languages,TANL)来解决许多结构化预测语言任务,包括联合实体和关系提取、嵌套命名实体识别、关系分类、语义角色标注、事件提取、共指消解和对话状态跟踪。我们没有训练特定于任务的区分分类器来解决这个问题,而是将其框架化为一个增强自然语言之间的翻译任务,从中可以很容易地提取与任务相关的信息。我们的方法可以在所有任务上匹配或优于任务特定模型,特别是在联合实体和关系提取(CoNLL04、ADE、NYT和ACE2005数据集)、关系分类(FewRel和TACRED)和语义角色标记(CoNLL-2005和CoNLL2012)方面取得了最新的成果。我们在为所有任务使用相同的体系结构和超参数,甚至训练单个模型同时解决所有任务(多任务学习)的情况下实现了这一点。最后,我们表明,由于更好地使用了标签语义,我们的框架还可以在低资源情况下显著提高性能。

动机

结构化预测是指输出空间由结构化对象组成的推理任务,例如表示实体及其关系的图。在自然语言处理中,结构化预测涉及到实体和关系提取、语义角色标注和共指消解等广泛的问题。例如,如图1,我们展示了两个结构预测任务(联合实体和关系提取以及共指消解任务):

图1 结构预测任务示例

大多数方法通过在诸如BERT之类的预训练变换编码器的基础上,对各种类型的关系或属性使用特定于任务的鉴别器来处理结构化预测。然而,这有两个局限性。首先,有区别的分类器不能很容易地利用预先训练的模型可能已经具有的关于任务标签的语义的潜在知识。例如,知道一个人可以写一本书将大大简化学习作者关系在上述例子。然而,判别模型通常是在不知道标签语义的情况下训练的(它们的目标是类号),从而防止了这种正迁移。第二,由于判别模型的结构适合于特定的任务,因此很难训练单个模型来解决多个任务,或者在不改变判别器的特定于任务的组件的情况下从一个任务微调模型到另一个任务(转移学习)。因此,作者想解决的主要问题是:能否设计一个框架来解决不同的问题。

方法

在本文中,作者提出了一个 text-to-text的模型来解决这个问题,通过将其框架化为增强自然语言(TANL)之间的翻译任务。图2显示了在三个不同的结构化预测任务的情况下,如何在的框架内处理前面的示例。增广语言的设计使得在输入中对结构化信息(如相关实体)进行编码,并将输出文本解码为结构化信息变得容易。实验表明,开箱即用的Transformer模型可以很容易地学习这种增强的语言翻译任务。事实上,作者成功将框架应用于广泛的结构化预测问题,在许多数据集上获得了最新的结果。在所有任务上都使用相同的体系结构和超参数,任务之间的唯一区别是增强的自然语言格式。这与以前使用特定任务区分模型的方法不同。输入和输出格式的选择是至关重要的:通过使用尽可能接近自然语言的格式的注释。嵌套实体和任意数量的关系也可以巧妙地处理,作者实现了一个对齐算法,将从输出句子中提取的结构信息与输入句子中相应的标记进行鲁棒匹配。

图2 增强自然语言框架

以联合实体和关系抽取任务为例,如图3。给定一个句子,这个任务的目的是提取一组实体和一组实体对之间的关系。每个预测的实体和关系必须分配给一个实体或关系类型。为此任务设计的增强自然语言所需的输出复制了输入语句,并使用可解码为结构化对象的模式对其进行扩充,由一个实体和一些可能的关系组成的每个组都由特殊标记[]括起来。一系列分隔的标记以“X=Y”格式描述实体类型和关系列表,其中X是关系类型,Y是另一个实体(关系的尾部)。此外文中也列出了命名实体识别、关系分类、语义角色标注、共指消解、事件提取、对话状态跟踪这些任务各自的表示形式。

图3 联合实体和关系抽取任务

面对嵌套实体和多重关系这一特殊情况,如图4。嵌套模式允许我们表示实体的层次结构。在ADE数据集中的以下示例中,实体“lithium toxicity”属于disease类型,并且具有drug类型的子实体“lithium”。“lithium toxicity”实体涉及多种关系:一种是与“acyclovir”实体的effect类型,另一种是与“lithium”实体的effect类型。一般来说,输出中的关系可以以任何顺序出现。

图4 嵌套实体和多重关系

解码结构化对象过程中。一旦模型生成了一个扩充自然语言格式的输出句子,就对该句子进行解码以获得预测的结构化对象,如下几点:

1.移除所有特殊标记并提取实体类型和关系,以生成干净的输出。如果生成的句子的一部分格式无效,则该部分将被丢弃。

2.使用基于动态规划(DP)的Needleman-Wunsch对齐算法在令牌级别匹配输入语句和清洁的输出语句。然后,我们使用这种对齐来识别与原始输入语句中的实体相对应的标记。该过程提高了模型对潜在不完美生成的鲁棒性。

3.对于输出中提出的每个关系,搜索与预测尾部实体完全匹配的最近实体。如果这样的实体不存在,则丢弃关系。

4.丢弃其预测类型不属于依赖于数据集的类型列表的实体或关系。

实验

总结与讨论

1.本文的统一文本到文本的结构化预测方法可以在一个简单的框架内处理所有需要考虑的任务,并在低资源环境下提供额外的好处。与文献中常见的传统模型不同,TANL是生成性的,因为它在增强的自然语言中从输入转换为输出。这些扩充语言是灵活的,可以被设计来处理各种各样的任务。这给融入知识图谱工作带来了启发。

2.生成模型,特别是序列到序列模型,已经成功地应用于许多自然语言处理问题,如机器翻译、文本摘要等。这些任务涉及从一种自然语言输入到另一种自然语言输出的映射。然而,序列建模在结构化预测中的应用却很少受到重视。这可能是因为人们认为,生成方法过于不受约束,而且生成与结构化对象相对应的精确输出格式不是一种可靠的方法,或者它可能会在区分性模型方面增加不必要的复杂性。作者证明这是完全相反的。生成方法可以很容易地处理不同的任务,即在同一时间,可以输出适合每个任务的特定结构,并且格式错误的情况也很少,给生成任务带来更多的拓展空间。

 


 

OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478125.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ReactiveCocoa中潜在的内存泄漏及解决方案

ReactiveCocoa是GitHub开源的一个函数响应式编程框架,目前在美团App中大量使用。用过它的人都知道很好用,也确实为我们的生活带来了很多便利,特别是跟MVVM模式结合使用,更是如鱼得水。不过刚开始使用的时候,可能容易疏…

EXCEL如何快速拆分合并单元格数据

EXCEL如何快速拆分合并单元格数据

学完文本知识,我就直接看懂图片了!

文 | Yimin_饭煲2020年, OpenAI的大作GPT-3 (Language Models are few shot learners) 横空出世,震惊整个NLP/AI圈。大家在惊叹于GPT-3 1750B参数的壕无人性同时,想必对GPT-3中的Prompt方法印象深刻。简单来说,(GPT-3中的)Prompt就是为输入的…

LeetCode 914. 卡牌分组(最大公约数)

1. 题目 给定一副牌,每张牌上都写着一个整数。 此时,你需要选定一个数字 X,使我们可以将整副牌按下述规则分成 1 组或更多组: 每组都有 X 张牌。 组内所有的牌上都写着相同的整数。 仅当你可选的 X > 2 时返回 true。 示例…

RestQL:现代化的 API 开发方式

koa-restql 已经在 github 开源并在 npm 发布。感兴趣的同学可以前往围观一下。欢迎 Pull Request,同时热烈欢迎 Star。 在现代的业务系统中,后端开发工作基本上可以被拆分为三项: 接口鉴权。例如判断是不是当前系统的用户,以及该…

论文浅尝 | KnowEdu: 一个自动构建教育知识图谱的系统

笔记整理 | 崔凌云,天津大学硕士链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber8362657动机基于知识图的广泛应用和在教育领域日益增长的需求,作者提出了一个名为KnowEdu的系统,以自动构建教育知识图。通过利用教育…

我在斯坦福做科研的碎碎念

文 | Jazon编 | 小轶大家好,我是 Jazon。作为 AI 科研工作者,我们的目光不该只聚焦在开发新技术、刷榜打 SoTA 上。学界如职场,还有很多技术之外的软实力需要培养。这篇文章里,我想以我个人的经历作为切入点,聊一聊与此…

论文浅尝 | 用于学习知识图谱嵌入的一种基于注意力机制的新型异构 GNN 框架HRAN...

笔记整理 | 李爽,天津大学链接:http://hfbix45521e79b0484907sowxo0fubpp9b6xwx.fiiz.eds.tju.edu.cn/stamp/stamp.jsp?tp&arnumber9359364动机知识图谱 (KG) 嵌入旨在研究嵌入表示以保留 KG 的固有结构。图神经网络(GNN)作为一种有效的图表示技术&…

分布式队列编程优化篇

“分布式队列编程”是一个系列文,之前我们已经发布了《分布式队列编程模型、实战》,主要剖析了分布式队列编程模型的需求来源、定义、结构以及其变化多样性;根据作者在新美大实际工作经验,给出了队列式编程在分布式环境下的一些具…

LeetCode 443. 压缩字符串(双指针)

1. 题目 给定一组字符,使用原地算法将其压缩。 压缩后的长度必须始终小于或等于原数组长度。 数组的每个元素应该是长度为1 的字符(不是 int 整数类型)。 在完成原地修改输入数组后,返回数组的新长度。 进阶: 你能…

程序员在体制内的工作与生活是怎样的?

文 | 森林鱼(转载于公众号:森林鱼的时光)前言这篇文章原本是要在公众号上更新的,但考虑到修改问题,还是放在了这边。公众号那边会放一个最终相对完整的版本,日常更新与整理的话还是会在这边。主要是想尽量客…

开源开放 | 一个用于文言文实体识别与关系抽取等任务的开源数据集C-CLUE(CCKS2021)...

OpenKG地址:http://openkg.cn/dataset/c-clueGitHub地址:https://github.com/jizijing/C-CLUE网站地址:http://152.136.45.252:60002/pages/login.html开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者&…

谷歌:一篇论文,让研究者吃我三份安利

文 | 白鹡鸰想用Transformer做CV编 | 小轶想用Transformer做NLP前言计算机视觉、机器学习,这两个词会让你想到什么?相信绝大多数人第一反应都是CNN,而持续关注这些领域发展的人,则会进一步联想到近几年大火的Transformer&#xff…

LeetCode 290. 单词规律(哈希)

1. 题目 给定一种规律 pattern 和一个字符串 str ,判断 str 是否遵循相同的规律。 这里的 遵循 指完全匹配,例如, pattern 里的每个字母和字符串 str 中的每个非空单词之间存在着双向连接的对应规律。 示例1: 输入: pattern "abba&q…

开源开放 | 一个用于知识驱动的零样本学习研究的开源数据集KZSL(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/k-zslGitHub地址:https://github.com/China-UK-ZSL/Resources_for_KZSL开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:浙江大学(耿玉霞、陈卓、陈华钧)&#xff0c…

LeetCode 1022. 从根到叶的二进制数之和(递归)

1. 题目 给出一棵二叉树,其上每个结点的值都是 0 或 1 。每一条从根到叶的路径都代表一个从最高有效位开始的二进制数。例如,如果路径为 0 -> 1 -> 1 -> 0 -> 1,那么它表示二进制数 01101,也就是 13 。 对树上的每一…

别再Prompt了!谷歌提出tuning新方法,强力释放GPT-3潜力!

文 | Yimin_饭煲编 | 炼丹学徒如果评选NLP圈的2020年度十大关键词,那么GPT-3(Language Models are Few shot Learners) 一定榜上有名。GPT-3庞大的参数量,优异的性能至今仍让圈内圈外人都津津乐道,而OpenAI发布的OpenAI API&#…

大数据:任务调度,手把手教你

大数据:任务调度https://blog.csdn.net/qq_43713049/article/details/116985497 文章目录 任务调度一、任务流调度的需求二、任务流调度的工具三、Oozie的简介四、Oozie的2种使用方式五、WorkFlow 与 Fork 和 Join六、SubFlow:子工作流七、定时调度的实现…

人脸识别 | 你的论文离CVPR , 还有多远?

最近,一则人脸识别安全性问题的新闻上了热搜。(图片来自网络)虽然让不少人产生了“人在家中坐,债从天上来”的担忧,但也不由感叹人脸识别的发展与普及。人脸识别发展至今,已经在众多领域中占领重要地位。这…

LeetCode 455. 分发饼干(贪心)

1. 题目 假设你是一位很棒的家长,想要给你的孩子们一些小饼干。但是,每个孩子最多只能给一块饼干。对每个孩子 i ,都有一个胃口值 gi ,这是能让孩子们满足胃口的饼干的最小尺寸;并且每块饼干 j ,都有一个尺…