论文浅尝 - AAAI2020 | 迈向建立多语言义元知识库:用于 BabelNet Synsets 义元预测...

论文笔记整理:潘锐,天津大学硕士。


来源:AAAI 2020

链接:https://arxiv.org/pdf/1912.01795.pdf

摘要

义原被定义为人类语言的最小语义单位。义原知识库(KBs)是一种包含义原标注词汇的知识库,它已成功地应用于许多自然语言处理任务中。然而,现有的义原知识库建立在少数几种语言上,阻碍了它们的广泛应用。为此论文提出在多语种百科全书词典BabelNet的基础上建立一个统一的多语种义原知识库。首先建立一个数据集作为多语种义原知识库的种子知识库。它为超过1.5万个synset,并由人工手动标注若干义原。然后,首次提出并正式定义了BabelNet synset 义原预测任务,旨在将种子数据集扩展为一个可用的知识库。论文还利用了不同的synset信息提出了两个简单有效的模型。最后,进行定量和定性分析,探究任务中的重要因素和难点。


研究背景

人类语言可以划分成不同层次——句子可以划分成短语或词组,再进一步划分成词。词是最小的可以独立运用的单位,也是自然语言处理最常用的语言单位。但从语义层面讲,词还可以进一步细分为义原——也即语言学家定义的最小的语义单位。一些语言学家认为所有语言的所有词语的意思都可以用一个有限的义原集合来表达。并且有语言学家认为义原体系在任何语言中都是适用的,并不与特定语言相关。为了能在自然语言处理实践中应用义原,董振东和董强花费数十年时间构建了最著名的义原知识库——知网(HowNet)。HowNet预定义了两千多个义原,并用其标注了十万多个中/英文词语。每个词语的每个义项都用若干义原标注以表达其语义。


研究动机

然而,HowNet中已标注义原的英文词语数量有限,仅占WordNet英文词数的 32.8%,且中英之外其他语言的词语没有义原标注。这导致义原在自然语言处理领域的应用范围被大大局限——也是此前义原主要被用于中文自然语言处理任务的原因。为了解决这一问题,有人提出跨语言词语的义原预测 ,旨在通过双语词表示对齐的方式为其他语言的词语预测义原。但这种方法一次只能为一种语言的词语预测义原,不是非常高效,并且该方法无法进行义项层面的义原预测。


研究方法

和跨语言词语义原预测的思路不同,本文提出基于BabelNet来构建多语言义原知识库的方案。BabelNet是一个多语言百科词典,由BabelNet synset组成,每个synset包含意义相同的不同语言的词语,下图给出了一个例子——这个synset包含英语、汉语、法语、德语等各种语言表示「丈夫」这个意思的词语。

一个synset中不同语言的词语都应该被标注同样的义原,换言之,直接为BabelNet synset标注义原就可以同时为多个语言的词语标注义原,从而高效地构建一个多语言义原知识库。除了高效之外,基于BabelNet来构建多语言义原知识库的方案还有其他好处:直接将义原标注在义项层面;BabelNet蕴含的丰富的信息都可以为义原预测所用——包括维基百科、WordNet、FrameNet等等。

1 BabelSememe 数据集

为了推进大规模多语言义原知识库的构建,本文首先标注了一个种子知识库BabelSememe。它包含约一万五千个synset,每个synset由人工标注了若干义原。由于此前义原的结构鲜少被使用,同时为了节省成本,BabelSememe的标注暂时忽略了义原的结构。下图给出了BabelSememe数据集的分词性统计。

2 BabelNet synset义原预测形式化定义

有了种子知识库,下一步就是基于有义原标注的synset,为无标注的synset标注义原,进而将种子知识库不断扩充成最终的大规模义原知识库。本文首次提出并正式定义了BabelNet synset义原预测任务。BabelNet synset义原预测形式化如下:

定义为对BabelNet的某个Synset “b” 的预测义原集合,P(s|b)为给定b时,义原s的预测分数,为义原预测分数阈值。即为某个synset预测义原时,首先使用某种方法计算所有义原被预测给当前synset的分数,然后选取预测分数高于某个阈值的义原作为最终预测结果。

3 方法一:基于语义表示的Synset义原预测

这种方法的思路非常直观,即意思相近的synset其所标注义原也应该相似——这和推荐系统中常用的协同过滤方法非常类似。其中synset之间的相似性利用了BabelNet提供的NASARI synset embedding的余弦相似度衡量。

这种方法的公式如下图 所示,

4 方法二:基于关系表示的Synset义原预测

BabelNet包含很多synset之间的关系,例如同义、反义、上下位等。与此同时,HowNet也定义了若干种义原之间的关系,那么自然地,synset之间的关系和synset所标注的义原之间的关系应该是对应的,利用这种性质便可以进行义原预测。例如,

上图中better和worse这两个synset存在反义的关系,他们分别被标注了superior和inferior这两个同样存在反义关系的义原。那么,在已知better和worse、superior 和 inferior这两对反义关系,以及better有superior这个义原,很容易推测出中worse含有inferior这个义原。

基于此,本文建立了一个语义图,节点有synset和义原两种,关系有三种:synset之间的关系、义原之间的关系以及synset和义原之间被标注的关系(hava_sememe)。synset义原预测也就转化为了知识图谱中实体预测的任务,即给定头实体——待义原预测的synset,给定关系have semem,预测尾实体义原。这篇论文利用了知识图谱任务中经典的TransE模型来学习这些实体和关系的表示以进行预测。

此外,考虑到synset义原预测任务的特殊性,文中还额外引入了一个语义相等约束。词的语义可以由其义原组合而成,synset也有类似的性质,因此文中提出synset与其义原之和有一个语义等价的关系,并且在模型训练时额外引入语义相等约束。例如:

上图中husband这个synset加上语义相等关系等于义原embedding的和。因此方法二训练时的总损失函数为两者之和,如下图所示。

此外,文中还通过简单的顺序倒数加权相加的方式将两种方法进行了集成。


实验

该文利用自己构建的BabelSememe数据集对提出的synset义原预测模型进行了评测。其中为了对比,设置了两个基线方法:(1)同样使用了synset的语义表示(NASARI embedding)的逻辑回归(LR)和(2)基于关系表示的TransE。

通过实验结果发现,文中提出的方法一和方法二分别好于两个基线模型,而且集成模型Ensemble获得了最好的结果。

此外,论文还进行了一系列的定量分析,以探讨影响synset义原预测结果的因素。发现义原预测结果和synset以及义原度数(即方法二的语义图中节点度数)都成正相关,随着sysnet义原数量的增加先增加后减小。


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478845.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

美团外卖iOS多端复用的推动、支撑与思考

前言 美团外卖2013年11月开始起步,随后高速发展,不断刷新多项行业记录。截止至2018年5月19日,日订单量峰值已超过2000万,是全球规模最大的外卖平台。业务的快速发展对技术支撑提出了更高的要求。为线上用户提供高稳定的服务体验&a…

论文浅尝 - WWW2020 | 从自然语言交互中提取开放意图

论文笔记整理:娄东方,浙江大学博士后,研究方向为事件抽取。Vedula N, Lipka N, Maneriker P, et al. Open Intent Extraction from Natural Language Interactions[C]//Proceedings of The Web Conference 2020. 2020: 2009-2020.来源&#x…

深度学习在文本领域的应用

背景 近几年以深度学习技术为核心的人工智能得到广泛的关注,无论是学术界还是工业界,它们都把深度学习作为研究应用的焦点。而深度学习技术突飞猛进的发展离不开海量数据的积累、计算能力的提升和算法模型的改进。本文主要介绍深度学习技术在文本领域的应…

LeetCode 1009. 十进制整数的反码(位运算)

1. 题目 每个非负整数 N 都有其二进制表示。例如, 5 可以被表示为二进制 “101”,11 可以用二进制 “1011” 表示,依此类推。注意,除 N 0 外,任何二进制表示中都不含前导零。 二进制的反码表示是将每个 1 改为 0 且…

新分类!全总结!最新Awesome-SLU-Survey资源库开源!

文 | 哈工大SCIR 覃立波、谢天宝等指导老师 | 哈工大SCIR 车万翔教授简介口语语言理解(Spoken Language Understanding,SLU)作为任务型对话系统的核心组件,目的是为了获取用户询问语句的框架语义表示(semantics frame&…

技术实践 | 用 NetworkX + Gephi + Nebula Graph 分析权力的游戏人物关系(上篇)

本文转载自公众号:Nebula Graph Community 。我们都知道《权利的游戏》在全世界都很多忠实的粉丝,除去你永远不知道剧情下一秒谁会挂这种意外“惊喜”,当中复杂交错的人物关系也是它火爆的原因之一,而本文介绍如何通过 NetworkX 访…

美团外卖Android Crash治理之路

Crash率是衡量一个App好坏的重要指标之一,如果你忽略了它的存在,它就会愈演愈烈,最后造成大量用户的流失,进而给公司带来无法估量的损失。本文讲述美团外卖Android客户端团队在将App的Crash率从千分之三做到万分之二过程中所做的大…

全栈深度学习第7期: 研究方向这么多,哪些是有有趣又潜力的呢?

一起追剧鸭简介Berkeley全栈深度学习追剧计划是由夕小瑶的卖萌屋发起的优质公开课打卡项目,通过微信群为同期追剧的小伙伴提供交流平台。关于该计划的详请见这里。Berkeley深度学习追剧群目前已有1000小伙伴加入,公众号后台回复口令 深度学习追剧 入群。…

会议交流 | 人工智能与机器学习创新峰会 - 知识图谱与图神经网络分会

人工智能与机器学习创新峰会力邀 HBAT 等大厂资深研发专家做分享和技术展望时间:9月4日下午1:30地点:浦东海神诺富特大酒店OpenKG开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技…

LeetCode 1046. 最后一块石头的重量(priority_queue 堆)

1. 题目 有一堆石头&#xff0c;每块石头的重量都是正整数。 每一回合&#xff0c;从中选出两块最重的石头&#xff0c;然后将它们一起粉碎。假设石头的重量分别为 x 和 y&#xff0c;且 x < y。那么粉碎的可能结果如下&#xff1a; 如果 x y&#xff0c;那么两块石头都…

深度学习如何均衡精度、内存、计算和通信开销?

文 | 立交桥跳水冠军知乎本文已获作者授权&#xff0c;禁止二次转载鱼与熊掌不可兼得&#xff0c;深度学习领域中的几个指标也相同。主要的指标有如下四个&#xff1a;&#xff08;1&#xff09;精度&#xff1a;自然精度是一个模型最根本的衡量指标&#xff0c;如果一个模型精…

深度学习在美团搜索广告排序的应用实践

一、前言 在计算广告场景中&#xff0c;需要平衡和优化三个参与方——用户、广告主、平台的关键指标&#xff0c;而预估点击率CTR&#xff08;Click-through Rate&#xff09;和转化率CVR&#xff08;Conversion Rate&#xff09;是其中非常重要的一环&#xff0c;准确地预估CT…

论文浅尝 - ICML2020 | 拆解元学习:理解 Few-Shots 任务中的特征表示

论文笔记整理&#xff1a;申时荣&#xff0c;东南大学博士生。来源&#xff1a;ICML2020链接&#xff1a;http://arxiv.org/abs/2002.06753元学习算法会生成特征提取器&#xff0c;这些特征提取器在进行few-shot分类时就可以达到最新的性能。尽管文献中有大量的元学习方法&…

LeetCode 304. 二维区域和检索 - 矩阵不可变(DP)

1. 题目 2. 解题 类似题目&#xff1a;LeetCode 308. 二维区域和检索 - 可变&#xff08;前缀和&#xff09; dp[i][j]数组表示 从左上角到i,j位置的所有和 sum[i1][j1]sum[i1][j]sum[i][j1]matrix[i][j]−sum[i][j]sum[i1][j1] sum[i1][j]sum[i][j1]matrix[i][j]-sum[i][j]…

论文浅尝 - ICML2020 | 对比图神经网络解释器

论文笔记整理&#xff1a;方尹&#xff0c;浙江大学在读博士&#xff0c;研究方向&#xff1a;图表示学习。Contrastive Graph Neural Network Explanation动机与贡献本文主要关注图神经网络的解释性问题&#xff0c;这样的解释有助于提升GNN的可信度&#xff0c;能够更好的理解…

这可能是最简单又有效的自监督学习方法了

文 | 王珣知乎本文已获作者授权&#xff0c;禁止二次转载从Kaiming的MoCo和Hinton组Chen Ting的SimCLR开始&#xff0c;自监督学习&#xff08;SSL&#xff09;成了计算机视觉的热潮显学。凡是大佬大组&#xff08;Kaiming, VGG&#xff0c;MMLAB等&#xff09;&#xff0c;近两…

大众点评账号业务高可用进阶之路

引言 在任何一家互联网公司&#xff0c;不管其主营业务是什么&#xff0c;都会有一套自己的账号体系。账号既是公司所有业务发展留下的最宝贵资产&#xff0c;它可以用来衡量业务指标&#xff0c;例如日活、月活、留存等&#xff0c;同时也给不同业务线提供了大量潜在用户&…

LeetCode 493. 翻转对(归并排序)

1. 题目 给定一个数组 nums &#xff0c;如果 i < j 且 nums[i] > 2*nums[j] 我们就将 (i, j) 称作一个重要翻转对。 你需要返回给定数组中的重要翻转对的数量。 输入: [1,3,2,3,1] 输出: 2输入: [2,4,3,5,1] 输出: 3来源&#xff1a;力扣&#xff08;LeetCode&#x…

论文浅尝 - ICML2020 | 通过关系图上的贝叶斯元学习进行少样本关系提取

论文笔记整理&#xff1a;申时荣&#xff0c;东南大学博士生。来源&#xff1a;ICML 2020链接&#xff1a;http://arxiv.org/abs/2007.02387一、介绍本文研究了少样本关系提取&#xff0c;旨在通过训练每个关系少量带有标记示例的句子来预测句子中一对实体的关系。为了更有效地…

美团外卖客户端高可用建设体系

背景 美团外卖从2013年11月开始起步&#xff0c;经过数年的高速发展&#xff0c;一直在不断地刷新着记录。2018年5月19日&#xff0c;日订单量峰值突破2000万单&#xff0c;已经成为全球规模最大的外卖平台。业务的快速发展对系统稳定性提出了更高的要求&#xff0c;如何为线上…