技术动态 | TechKG:一个面向中文学术领域的大型知识图谱

作者:东北大学-知识图谱研究组  任飞亮


TechKG 是一个面向中文、面向学术、多领域的大型知识图谱知识库,知识库由东北大学-知识图谱研究组开发完成。和已有知识图谱如 Freebase YAGO 相比,TechKG 具有如下主要特点:

1、是一个大型的中文知识图谱知识库。当前,TechKG 共包含大约 5 千万个实体、以及 2.6 亿个三元组。知识规模和 FreebaseYAGO 相当。

2、面向科技。TechKG 的数据源为发表在中文各类学术期刊上的科技论文,和 Freebase YAGO 这些通用知识图谱相比,TechKG 更有侧重性。

3、领域划分完整。当前,TechKG 的数据共分为 38 个研究领域,每个研究领域对应一个学科。据我们所知,TechKG 是当前唯一一个有明确领域分类的大型知识图谱。

通过在 TechKG 上的数据分析,我们还获得了如下一些中文知识图谱所特有的现象。

首先,TechKG 显示,中文作者姓名重名现象严重。我们把作者重名问题分为两类:领域间重名和领域内重名。如果一个作者名出现在不同的研究领域,则该名字称为领域间重名。如果一个作者名字出现在同一领域(比如“计算机”领域)的不同研究机构中,则该名字称为领域内重名。我们的实验结果显示,平均每个中文作者名出现在3.97个领域中。我们甚至发现,有167个作者名(如:张林、刘华、汪洋、张磊、王辉、李兵、张健、陈鹏、王欣、李强、王莉、杨辉、王琳、刘杰、王平、张岩、刘超、陈华、杨军、张志刚等)出现在了所有的领域中。而领域间重名现象则更加复杂,难以精确识别。因为,有时候是同一个作者在不同时间段里处于不同的研究机构,有时候是不同的作者处于不同的研究机构。对于前者,就并不是重名问题,但此时识别难度就要大的多。

其次,领域术语的重名现象严重。这里的领域术语重名是指一个领域术语同时出现在多个领域中。而且,我们的实验结果显示,类似tf*idf的方法并不能有效地消除领域术语的重名问题。比如,即使是取每个领域中tf*idftop-10%的术语,平均每个术语仍会出现在大约2.62个领域中。

第三,严重的数据分布不均衡现象。在之前的研究中,研究者把知识图谱中的关系分为4个类型:1-11-nm-1m-n。我们的统计结果显示,在TechKG中,这4个关系类型所占的比例极度不均衡。我们统计了在不同的tf*idf领域术语过滤条件下这4类关系类型所占的比例,发现tf*idf的过滤条件基本不会对类型分布产生影响:在各个tf*idf设置下,m-n类型关系所占的比例均起过60%m-1类型的关系所占的比例均接近20%1-1类型的关系所占的比例大约在15%左右,而1-n类型的关系则基本可以忽略不计,只有0.01%左右。

我们的初步实验结果显示,TechKG的上述特有现象会对下游的一些任务产生重要影响。如在Knowledge graph embedding任务中,实验结果显示,不仅重名问题(作者重名及领域术语重名)会对实验性能产生严重的负面结果,关系类型不均衡现象也会极大地影响实验的最终性能。实际上,TechKG显示出来的这些特性均为中文中所存在的固有的语言学现象,在FreebaseYAGO这些英文知识图谱中并没有体现。而之前因为没有合适的中文知识图谱数据集,所以,相应的问题并没有得到研究者们的注意。现在,TechKG为研究者们提供了一个可以对上面问题进行深入研究的知识图谱数据集。

基于TechKG,我们还构建了以下几类知识库,每类知识库均分38个领域,每个领域对应一个学科。

  • TechKG10:从TechKG中抽取的子集,抽取规则如下:1)领域术语的tf*idf在前10%2)每个实体至少出现在10个三元组中。

  • TechTerm:一个中文领域术语知识库,每个领域均由从TechKGtf*idf最高的术语中随机选择的1w条术语组成。

  • TechBiTerm:一个术语对知识库,每个领域均由从TechKG中选择的"共现"次数最多的1w个术语翻译对组成。

  • TechAbs:一个由论文摘要组成的知识库,每个领域均由随机选择10w个摘要组成。

  • TechQA:一个问答知识库,基于TechKG10、采用模板生成。

  • TechNER:一个基于TechTerm、采用远程监督方式生成的主要用于进行领域术语识别任务的知识库,每个领域包含3w个训练句子。

  • TechRE:一个基于TechKG10、采用远程监督方式生成的主要用于关系抽取任务的知识库,每个领域由随机选择的20w个训练bags组成,每个bag平均包含6个句子。

 

利用TechKG以及上面的几个知识库,研究者们不仅可以开展知识图谱方向相关的研究(如知识图谱embedding、关系抽取、命名实体识别等),还可以进行如:KBQA、机器翻译、文本分类等多项相关任务的研究。

 

读者可通过以下网站下载TechKG以及相关的几类知识库: www.techkg.cn。也可以通过论文 TechKG: A Large-Scale Chinese Technology-Oriented Knowledge Graph 来了解 TechKG 的详细特性(论文下载地址:https://arxiv.org/abs/1812.06722)。




OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480242.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

技术总结:图算法、开源工具及其在工业界的应用场景概述

知识图谱本质上是一种图结构,在图内部数据规模大且质量高、外部算力足够的情况下,充分利用好图算法,能够最大程度地发挥出其数据价值。实际上,图(Graph)是一个常见的数据结构,现实世界中有很多很…

SIGIR2020 | 淘宝提出结合知识图谱与大规模推荐的新框架ATBRG

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 江城编 | 夕小瑶今天分享一篇淘宝发表在 SIGIR2020 上的关于知识图谱应用于大规模推荐的论文《ATBRG: Adaptive Target-Behavior Relational Graph Network for Effective Recommendation》&#xff0c…

图Graph--农夫过河问题(BFS/DFS应用)

农夫过河问题: /*** description: 农夫过河问题(羊,白菜,狼),一次最多带一个东西过河,* 农夫不在的情况下羊会吃白菜,狼会吃羊,如何平安过河* author…

机器学习之「二分类算法」-----银行营销案例分析

原文地址&#xff1a; <di&#xff1a;https://blog.csdn.net/weixin_44696674/article/details/88231922iv id“article_content” class“article_content clearfix” data-track-view"{“mod”:“popu_307”,“con”:",https://blog.csdn.net/weixin_44696674/…

论文浅尝 | 直译优于翻译?混合语言的知识库问答方法研究

动机作者思考&#xff0c;如果一个人懂多个语言&#xff0c;那么只要他知道某一语言的某个事实&#xff0c;就能以它作为另一语言问题的答案&#xff0c;同时希望证明计算机是否也能做到这一点&#xff0c;并完成混合语言的简单问题知识问答任务&#xff08;Code-Mix Simple Qu…

2018最新Java面试78题:数据结构+网络+NoSQL+分布式架构

算法和数据结构 数组、链表、二叉树、队列、栈的各种操作&#xff08;性能&#xff0c;场景&#xff09; 二分查找和各种变种的二分查找 各类排序算法以及复杂度分析&#xff08;快排、归并、堆&#xff09; 各类算法题&#xff08;手写&#xff09; 理解并可以分析时间和空…

工程实践:基于规则模式的军事和医药领域知识图谱问答快速实现

知识结构化问答是知识图谱的一个重要的应用方向&#xff0c;虽然现在许多真实的使用体验上&#xff0c;会被评价为“鸡肋且智障”&#xff0c;并且在落地上还没有太多的付费场景&#xff0c;但也不乏有不少学生、公司、机构在尝试花时间去做这个事情。当前&#xff0c;医疗知识…

图Graph--最小生成树

文章目录1.概念2.构造最小生成树Prim算法3.构造最小生成树Kruskal算法1.概念 对图运用不同的遍历方法就可能得到图的不同遍历顺序&#xff0c;每一种遍历顺序对应于一棵生成树对于无向连通图&#xff0c;所有的生成树中必有一棵树的所有边的权的总和最小的&#xff0c;称之为最…

Longformer:超越RoBERTa,为长文档而生的预训练模型

星标/置顶小屋&#xff0c;带你解锁最萌最前沿的NLP、搜索与推荐技术文 | ChrisCao, 小轶前言今天要与大家分享的是AllenAI今年发表的最新工作&#xff0c;Longformer——一种可高效处理长文本的升级版Transformer。作者团队提供了开源代码&#xff0c;大家可快速复现&#xff…

工程实践:基于规则句法的事件关系与主谓宾三元组抽取项目实现

目前&#xff0c;知识图谱在学术界如火如荼地进行&#xff0c;但受限于知识图谱各个环节中的性能问题&#xff0c;还尚未能够在工业界大规模运用。而与知识图谱中以实体为知识节点&#xff0c;实体关系为实体关系边对知识进行组织不同&#xff0c;以事件作为节点&#xff0c;事…

论文浅尝 | LightRNN:存储和计算高效的 RNN

链接&#xff1a;https://arxiv.org/pdf/1610.09893.pdf动机在NLP任务中使用RNN已经被证明是很有用的模型方法。但是传统的RNN在NLP中的应用有一个很大的限制&#xff1a;RNN的输出输入Embedding占用的空间太大&#xff0c;比如1024维10M词表大小的Embedding矩阵就要占掉40GB&a…

阿里最全Java面试100题汇总:涵盖天猫、蚂蚁金服等面试题!含答案~

【阿里天猫、蚂蚁、钉钉面试题目】 1、微信红包怎么实现。 2、海量数据分析。 3、测试职位问的线程安全和非线程安全。 4、HTTP2.0、thrift。 5、面试电话沟通可能先让自我介绍。 6、分布式事务一致性。 7、nio的底层实现。 8、jvm基础是必问的&#xff0c;jvm GC原理&a…

ACL2020 奇葩论文标题大赏

星标/置顶小屋&#xff0c;带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 灵魂写手rumor酱编 | 不拖更的夕小瑶又是一年一度的ACL&#xff0c;之前通过卖萌屋Arxiv服务已经零零碎碎看了一些&#xff0c;还是准备刷一下论文list&#xff0c;看看哪篇能让我的模型效果一飞冲天。…

字符串匹配算法(BF RK)

文章目录1. BF&#xff08;Brute Force&#xff09;暴力匹配BF代码2. RK&#xff08;Rabin-Karp&#xff09;算法RK代码3. 思考题&#xff1a;&#xff08;二维匹配&#xff09;1. BF&#xff08;Brute Force&#xff09;暴力匹配 BF算法的思想&#xff0c;在主串中&#xff0…

用Python寻找最优投资组合

原文地址&#xff1a;https://www.jianshu.com/p/2a25dfd465e9 现代投资组合理论&#xff08;Modern Portfolio Theory&#xff0c;MPT&#xff09;告诉我们投资者应该分散投资来实现最小化风险最大化投资回报。大邓刚开始学习这方面知识&#xff0c;用了将近一天的时候才搞懂M…

技术动态 | 事理图谱,下一代知识图谱

本文转载自公众号&#xff1a;DataHorizon。 人工智能与认知智能当前人工智能时代下&#xff0c;机器与人类之间的博弈一直在进行着。如图1所示&#xff0c;从1926年达特茅斯会议的召开标志人工智能诞生到深度学习模型在…

头条Java后台3面(含答案):事务+List集合+慢查询SQL+Redis+秒杀设计

头条Java一面 1.讲讲jvm运行时数据库区 2.讲讲你知道的垃圾回收算法 3.jvm内存模型jmm 4.内存泄漏与内存溢出的区别 5. select、epoll 的区别&#xff1f;底层的数据结构是什么&#xff1f; 6.mysql数据库默认存储引擎&#xff0c;有什么优点 7.优化数据库的方法&#xf…

CNN卷积神经网络(吴恩达《卷积神经网络》笔记一)

CNN 卷积网络说明卷积 Convolution填充 Padding步长 StrideRGB图像卷积池化 Pooling完整CNN为什么人们喜欢用卷积神经网络&#xff1f;实例分析说明 关于CNN的基础知识&#xff1a;卷积、填充、步长、池化、完整的深度CNN网络可以参考 链接: AI学习笔记——卷积神经网络&#…

字符串匹配算法(BM)

文章目录1. BM&#xff08;Boyer-Moore&#xff09;算法1.1 坏字符规则1.2 好后缀规则1.3 两种规则如何选择2. BM算法代码实现2.1 坏字符2.2 好后缀2.3 完整代码2.4 调试3. 总结1. BM&#xff08;Boyer-Moore&#xff09;算法 思想&#xff1a;有模式串中不存在的字符&#xf…

SQL 数据分析常用语句

1 基础查询 • 2 字符串数字日期时间 • 3 聚合数据查询 • 4 子查询 • 5 联接组合查询 • 6 高级查询 • 7 更新数据 阅读提醒&#xff1a;点击图片放大可看清晰的 1 基础查询 2 字符串数字日期时间 3 聚合数据查询 4 子查询 5 联接组合查询 6 高级查询 7 更新数据 参考资料 …