论文浅尝 | C3KG:中文常识对话知识图谱

6be5eba0c8f01564e905f7655b52412c.png

笔记整理:张廉臣,东南大学硕士,研究方向为自然语言处理。

Citation: Li, D., Li, Y., Zhang, J., Li, K., Wei, C., Cui, J., & Wang, B. (2022). C3KG: A Chinese Commonsense Conversation Knowledge Graph. arXiv preprint arXiv:2204.02549.

动机

常识知识在机器与人类互动中至关重要。近年来,研究人员越来越着眼于推进关于常识知识的工作。其中,ATOMIC是一个包含很多推理知识的常识知识库,研究人员可以根据该知识库开发聊天机器人。但是在聊天机器人的应用上,目前存在着两大困难。一方面,对于一个事件关系对,ATOMIC含有多个配对结果,多个结果的存在会使聊天机器人对结果为何产生感到困惑。另一方面,ATOMIC中的知识元组是分离的,这些分离的元组会使聊天机器人很难推理应该用哪些知识的配对结果产生具有呈递性的连贯对话,例如,我们需要在对话中排除掉已经成为事件原因的配对结果。

为了解决这些问题,作者定义了四种新的对话流关系,即事件流、概念流、情感原因流和情感意图流,并依据此构建图谱C3KG。作者通过对收集到的大量日常对话信息进行注释,利用对话知识来增强ATOMIC。总的来看,基于ATOMIC的图谱构建工作有助于聊天机器人在ATOMIC中提取出有用的常识知识,并减少机器人对于对话结果的困惑。

贡献

文章的贡献有:

1.构建了一个新的汉语语料库,包含日常生活话题的多轮人类书面对话,这些语料具有丰富、高质量的注释;2.构建并将发布第一个大规模的中国常识对话知识图谱C3KG,其中包含4种独特的对话流边,用于存储从对话语料库中提取的对话知识;3.设计了一种图对话匹配方法,并基于常识对话图谱对两个典型任务进行了测试。

方法

⒈ 基于情景的多轮会话语料库构建

由于作者的目标是从真实对话中提取常见的对话信息,所以确保会话语料库的质量和提取方法的可靠性至关重要。作者使用的语料库并非基于杂乱的互联网数据,而是基于一个众包收集的多轮人类书面汉语对话数据。其具体构建方式如下:首先,研究团队雇佣了100名员工,并让这些员工随机配对,在给定的场景下用书面文字交流。每个场景都是一个描述给定对话的上下文的句子,通常涉及一些日常的事件。此外,这些被招募的员工还需要遵守某些规则,如“每句话的长度应超过6个汉字”,这对于确保收集对话的质量至关重要。经过培训以后,研究人员只保留了62名训练有素的工人,让他们完成产生数据的任务。随后,研究者们获得了三万两千次次高质量的一对一对话(总共65万条),涉及200个场景,15个日常话题。

获得数据后,研究人员雇佣一些专业人士对语料进行了情感标注,通过使用注释,作者提取到了对话知识,增强了对话图和基于图的对话建模。

⒉ 对ATOMIC的处理

由于收集到的会话信息是中文的,作者的目标也是建立一个中文会话知识图谱,从头构建知识图谱是比较费力的,所以作者采取的方法是以ATOMIC为基础,利用一种Pipeline方法将其翻译成中文,同时确保翻译产物适合会话方面的应用。具体来说,研究人员采用了规则替换和联合翻译的方法来提高翻译质量,翻译产物的名称被称为ATOMIC-zh。

⒊ 会话知识图谱的构建

由于开放域对话数据集中的数据包含大量口语表达和结构复杂的子句,研究人员开发了一个基于依赖解析的事件检测Pipeline方法来提取每个话语中的重要事件(ATOMIC-zh中的知识是基于事件的)。该方法的第一步是数据预处理,首先,每条数据被依照标点符号分割,然后在子文段层面上进行操作。经过过滤减少文本数据噪音,研究人员使用ltp41进行依赖句法分析和词性标注,并基于动词驱动和形容词驱动两种结构模式提取提及的事件。由于依照该方法产生的事件可能仍然包含多个动词和几个语义单位。在这种情况下,研究人员对数据进行了递归分解。为了做到这一点,事件中与词根相关的动词的数量被计算出来,以及这些动词相关的子树的深度。研究人员会根据计算结果确定是否需要使用阈值进行二次分解。如果需要,算法将递归地搜索原始依赖关系树中的动词,并用找到的动词替换关键动词。

在匹配方面,作者引入了Sentence-BERT(SBERT)对数据进行匹配。SBERT可以分别对两个给定的句子进行编码,并计算其表示之间的相似性,从而在大规模多对多匹配中高效地执行。同时,研究人员为了保证匹配性能,也同时对模型进行了微调处理。

07fff0b65a7f4c4754874dab4d5c71ad.png

图1 一个事件流Head-Head Edge构建示例

在图谱的边构建方面,研究人员提出了三种边来反映不同类型的对话流,并着重介绍了Head-Head Edge构建和Tail-Tail Edge的构建,一个事件流Head-Head Edge构建的图示如上图。下图展示了一个情感意向边(Emotion-Intent Edge)的构建过程。研究人员首先将“不舒服”的情绪与话语情感标签“悲伤”相匹配,随后发现在下一个文段中出现了吃药。因此,一个从“不舒服”到“吃药”的情感意向边被构建出来,并在边上添加了第二个话语“问”的意向标签,如下图所示

0d843f0368ebe4750bb62807cf8f2f4e.png

图2 一个情感意向边的构建示例

考虑到每一个话语中的情感和意图都可能是潜在的、不可预测的,研究人员还聘请了两名具有丰富心理学经验的专业人士,并请他们在情绪表达的高频场景(如失眠和学业压力)中标记情绪原因和意图。为了方便专业其工作,论文作者还构建了一个交互式注释工具,以便在我们的C3KG中更轻松地进行注释和探索。

实验

论文作者对图谱构建的过程和图谱进行了多次实验评估。在事件抽取和匹配方法层面,论文作者随机抽取了100个文段对其进行评估,Parsing为作者提出的方法, POS为使用基于词性标记的模板来提取事件的方法,而Simple为仅在匹配之前根据标点分割和过滤话语的方法。虽然这三种方法在没有微调的情况下具有相似的平均相似性,但Parsing在微调后与Simple和POS相比,性能都得到了较大提升,如图三所示:

07f30350c1b8ba18cb0851ca167c3347.png

图3 匹配性能测试

为了验证新的对话流关系的质量和稳健性,研究人员使用了另一个开放域多轮中文对话数据集MOD,实验结果如下:

7f0d948a3999003b13c717c5a7d6825c.png

图4 MOD数据集测试结果

加入了ATOMIC-zh的对比结果显示出了该论文提出的事件流的有效性,其在文段匹配中显示出更高的连通性和更短的距离。此外,论文作者也提出了一些图谱任务,并将C3KG进行了任务测试。

618d35d0eab417ce6bfd7570a3508e27.png

图5 关于“生病”的图谱可视化

总结

本文提出并构建了一种中文常识对话知识图谱,从数据集的构建开始,作者采取多种方法,如定义新的对话流关系等将常识图谱构建完成,该工作有利于中文常识对话建模,为未来聊天机器人的发展做了铺垫。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

dbd7b96003e709e80311649c74a423f9.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477589.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Cloud构建微服务架构:消息驱动的微服务(核心概念)【Dalston版】

通过《Spring Cloud构建微服务架构:消息驱动的微服务(入门)》一文,相信大家对Spring Cloud Stream的工作模式已经有了一些基础概念,比如:输入、输出通道的绑定,通道消息事件的监听等。下面在本文…

大模型时代,我们真的不再需要分词了吗?

文 | 付奶茶编 | 小轶分词是NLP的基础任务,将句子、段落分解为字词单位,方便后续的处理的分析。不知道NLPer有没有思考过这个问题:我们在各项研究工作中想要建模的文本单位究竟是什么?What are the units of text that we want to model?在这篇论文中,…

LeetCode 1190. 反转每对括号间的子串(栈)

1. 题目 给出一个字符串 s(仅含有小写英文字母和括号)。 请你按照从括号内到外的顺序,逐层反转每对匹配括号中的字符串,并返回最终的结果。 注意,您的结果中 不应 包含任何括号。 示例 1: 输入&#xf…

论文浅尝 | 探索用于归纳型知识图谱补全的关系语义

笔记整理:徐雅静,浙江大学在读硕士,研究方向为知识图谱的表示学习,零样本学习。KGC指的是在不完整的KG中推理出缺失的实体。以前的多数工作仅仅考虑到直推式场景(实体都存在KG中),不能有效地解决…

关于深度学习,我们写了一本1400页的全栈手册

不知不觉写文章已经四年了。最开始是一个人,后来恰了恰饭,就招揽了很多比小夕厉害的小伙伴一起写。不知不觉已经积累了300多篇了。。三年以来,我跟小伙伴们原创的300篇深度学习与NLP领域的入门资料、子方向综述、2018~2022学术前沿解读、工业…

LeetCode 1019. 链表中的下一个更大节点(单调栈)

1. 题目 给出一个以头节点 head 作为第一个节点的链表。链表中的节点分别编号为:node_1, node_2, node_3, … 。 每个节点都可能有下一个更大值(next larger value):对于 node_i,如果其 next_larger(node_i) 是 node…

Spring Cloud Hystrix的请求合并

通常微服务架构中的依赖通过远程调用实现,而远程调用中最常见的问题就是通信消耗与连接数占用。在高并发的情况之下,因通信次数的增加,总的通信时间消耗将会变的不那么理想。同时,因为对依赖服务的线程池资源有限,将出…

LeetCode 306. 累加数(暴力回溯)

1. 题目 累加数是一个字符串,组成它的数字可以形成累加序列。 一个有效的累加序列必须至少包含 3 个数。除了最开始的两个数以外,字符串中的其他数都等于它之前两个数相加的和。 给定一个只包含数字 ‘0’-‘9’ 的字符串,编写一个算法来判…

关于深度学习,我们4年时间写了一本1400页的全栈手册

不知不觉写文章已经四年多了。最开始是一个人,后来恰了恰饭(感恩理解),就招揽了很多比小夕厉害的小伙伴一起写。不知不觉已经积累了300多篇了。。四年以来,我跟小伙伴们原创的300篇深度学习领域(含NLP、CV等…

会议交流 | 第十六届全国知识图谱与语义计算大会(工业界论坛)——8月24日-27日...

点击阅读原文,进入 CCKS 官方网站。OpenKGOpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

消费者驱动的微服务契约测试套件Spring Cloud Contract

在微服务架构下,你的服务可能由不同的团队提供和维护,在这种情况下,接口的开发和维护可能会带来一些问题,比如服务端调整架构或接口调整而对消费者不透明,导致接口调用失败。 为解决这些问题,Ian Robinson…

LeetCode 842. 将数组拆分成斐波那契序列(暴力查找)

1. 题目 给定一个数字字符串 S&#xff0c;比如 S “123456579”&#xff0c;我们可以将它分成斐波那契式的序列 [123, 456, 579]。 形式上&#xff0c;斐波那契式序列是一个非负整数列表 F&#xff0c;且满足&#xff1a; 0 < F[i] < 2^31 - 1&#xff0c;&#xff…

做CV和做NLP,是否都有光明的未来?

本文授权转载自公众号“算法圈的小破事”&#xff0c;点击以上卡片进行关注大家好&#xff0c;我是在互联网危险边缘疯狂试探的皮皮虾。最近有点忙&#xff0c;拖更了&#xff0c;不知道有没有读者惦记皮皮虾推文呢&#xff08;目测没有TT&#xff09;。首先祭出新华字典的老图…

论文浅尝 | 知识表示、多模态融合、搜索匹配三大方向探索——360人工智能研究院知识图谱算法团队...

转载公众号 | 老刘说NLP当前以促进技术发展、提升模型指标&#xff0c;探究模型天花板的竞赛越来越多&#xff0c;也逐步成为各大研究机构、互联网大厂竞相角逐的主战场。自2022年以来&#xff0c;在组员的共同努力下&#xff0c;团队(360人工智能研究院知识图谱算法团队)&…

Spring Cloud Zuul重试机制探秘

简介 本文章对应spring cloud的版本为(Dalston.SR4)&#xff0c;具体内容如下&#xff1a; 开启Zuul功能通过源码了解Zuul的一次转发怎么开启zuul的重试机制Edgware.RC1版本的优化 开启Zuul的功能 首先如何使用spring cloud zuul完成路由转发的功能&#xff0c;这个问题很简…

论文浅尝 | PASSLEAF: 一个用于不确定知识图谱嵌入的基于样本池的半监督学习框架...

笔记整理&#xff1a;杨露露&#xff0c;天津大学硕士链接&#xff1a;https://ojs.aaai.org/index.php/AAAI/article/view/16522/16329动机在不确定知识图谱的嵌入中&#xff0c;实体之间的每个关系都有一个置信度。鉴于现有的嵌入方法可能会丢弃不确定性信息&#xff0c;或只…

LeetCode 60. 第k个排列(回溯 康托展开)

文章目录1. 题目2. 解题2.1 回溯2.2 数学-康托展开1. 题目 给出集合 [1,2,3,…,n]&#xff0c;其所有元素共有 n! 种排列。 按大小顺序列出所有排列情况&#xff0c;并一一标记&#xff0c;当 n 3 时, 所有排列如下&#xff1a; “123” “132” “213” “231” “312” “…

我在谷歌实习时发现了一个模型 bug,于是有了这篇 ACL

文 | AlbertYang编 | 小轶表格的自动理解与检索已经成为 NLP 以及多模态任务中重要的一环。如果我们给模型一个冬奥会的奖牌榜并且问&#xff0c;“哪个国家的金牌最多&#xff1f;”&#xff0c;现有的模型已经可以毫不费力地输出正确的答案&#xff08;通常都是表格首行的国家…

Spring Cloud Zuul的fallback优化

如何在Zuul中使用fallback功能 我们在项目中使用Spring cloud zuul的时候&#xff0c;有一种这样的需求&#xff0c;就是当我们的zuul进行路由分发时&#xff0c;如果后端服务没有启动&#xff0c;或者调用超时&#xff0c;这时候我们希望Zuul提供一种降级功能&#xff0c;而不…

技术动态 | 「新一代知识图谱关键技术」最新2022进展综述

转载公众号 | 专知链接&#xff1a;https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20210829近年来&#xff0c;国内外在新一代知识图谱的关键技术和理论方面取得了一定进展&#xff0c;以知识图谱为载体的典型应用也逐渐走进各个行业领域,包括智能问答、推荐系统、个人助手…