OpenKG开源系列 | 大规模中文概念图谱OpenConcepts (浙江大学)

OpenKG地址:http://openkg.cn/dataset/openconcept

官网:http://openconcepts.openkg.cn(提供Dump)

开放许可协议:CC BY-SA 4.0(署名-相同共享)


OpenConcepts 介绍

OpenConcepts (http://openconcepts.openkg.cn/) 是一个基于自动化知识抽取算法构建的中文概念图谱,由浙江大学知识引擎实验室贡献。本次开源了OpenConcepts中的440万概念核心实体,以及5万概念和1200万实体-概念三元组,并提供json,ttl, json-ld多种格式的原始Dump下载。

概念是人脑对事物的本质反应,能够帮助机器更好的理解自然语言。相较于传统的知识图谱,OpenConcepts包含大量中文细粒度概念,且具备自动更新、自动扩充的能力。比如对于“刘德华”这一实体,OpenConcepts不仅包含“香港歌手”、“演员”等传统概念,还具有“华语歌坛不老男歌手”、“娱乐圈绝世好男人”等细粒度标签。

OpenConcepts构建

构建知识图谱具有诸多挑战。早年的英文知识图谱如CyC、WordNet以及中文知识库如HowNet等大多通过专家手工构建,其构建成本非常高昂。Openconcepts采取完全自动化构建的方式,基于海量的中文网页数据和若干开放的中文知识库,通过自动化信息抽取、短语挖掘等自然语言处理技术,实现概念知识图谱的自动化构建。相较于传统的概念知识图谱,OpenConcepts的特点在于:

1. OpenConcepts包含大量的中文细粒度概念,这部分细粒度概念填补了中文细粒度知识的空白。

2. OpenConcepts是基于全自动化构建的方式,其整合了诸多自然语言处理算法并形成一套完整的知识抽取框架,具备自动化抽取、自动化扩展、自动化更新的能力。

OpenConcepts的自动化构建主要分为两大模块,1)概念知识的自动化抽取 2) 概念知识的融合,相关技术已经发表在国际顶会KDD 2021。我们首先通过开放的知识库、百科InfoBox等结构化、半结构化数据抽取粗粒度的概念。对于细粒度的概念,我们采取短语挖掘和序列标注相结合的策略,通过实体-概念模板和无监督短语挖掘构造弱监督样本,并基于迭代的降噪学习训练基于序列标注的概念抽取模型(http://openconcepts.openkg.cn/concept_extract_page),在离线测试集上概念抽取模型准确率可达0.89,召回率可达0.85。然后,我们对抽取到的不同的实体和概念进行融合,并通过贝叶斯估计过滤掉低置信度的概念。此外,我们也构造人工规则约束对高层次的概念进行人工干预,保证准确率。

具体的说,我们首先从包含噪声的海量开放语料中提取常见的细粒度概念,然后获取候选概念和实例,并通过概率推理和概念匹配将候选概念和实例与相应的概念联系起来。我们定义了一组精准的模板来从高置信度的匹配查询中利用Bootstrapping方法提取概念短语。例如,“十大XXX”是一种可用于提取种子概念的模式。基于这种模式,我们可以抽取出“十大手机游戏”等概念。然而由于文本中存在大量的噪声,因此我们采用一种基于对齐一致性的Bootstrapping方法来处理含噪文本。假设在某一轮中找到的新模板p,n_s是现有种子概念集合中的概念数,p可以从查询集Q中提取这些概念。设n_e是p可以从Q中提取的新概念的个数,我们通过函数 Filter(p): 1)  和2)   维护模板集p ,其中以及  是预定义的阈值,用于控制提取概念的精度。其次,我们通过对齐一致性对挖掘出的概念进行过滤,以提高细粒度概念的质量。最后,我们对挖掘出的细粒度实例和候选概念,利用概念判别器来判断每一个候选是概念还是实例,并通过概率推理和概念匹配将实例与这些分类的概念联系起来。具体的流程如下图所示:

针对长尾概念,我们通过短语挖掘和自训练从有带噪的搜索日志中提取长尾概念。我们首先基于短语挖掘算法,并利用外部领域知识图谱中的术语进行长尾的概念挖掘。具体来说,我们首先过滤停止词,然后使用现成的短语挖掘工具AutoPhrase在无监督的情况下对语料库进行短语挖掘。

我们同时采用了一种基于自训练的序列标注算法,用于长尾概念的挖掘,进一步提取一些分散的概念。具体而言,我们基于上述无监督方法生成的一些实例/概念作为种子训练一个CRF序列标注模型,并基于海量无标注数据生成大量弱监督伪样本,然后我们基于伪标注样本训练了一个基于BERT序列标注模型。之后,我们基于CRF、BERT和领域字典得到的预测结果进行一致性校验,以过滤掉伪标注样本中的噪声,并迭代生成更可靠的训练样本。

最后,我们将部分概念与预定义的同义词词典对齐。然后,我们通过通过每天的用户搜索实例热度计算置信度得分,并根据用户的点击行为来估计概念置信度分布。最后,我们将两个不同粒度的置信度得分联合构建实例-概念分类。

OpenConcepts规模和用途

  

本次,我们开源了OpenConcepts中的440万概念核心实体,以及5万概念和1200万实体-概念三元组。这些数据包括了常见的人物、地点等通用实体。我们的数据还在不断更新中。本次开源的数据可在openkg.cn 获取,OpenConcepts能够为智能推荐、智能问答、人机对话等应用提供数据支持。

 

我们的API接口开放在url{http://openconcepts.openkg.cn/api_page}。可以指定实例,返回若干概念实例集,包含相应的概念层级和置信度。例如我们可以发送http://openconcepts.openkg.cn/api/entity_concept?entity=南华园,来询问“南华园”这一实例。返回一个字典,其中"位置"概念属于概念级别1,置信度为0.43;"楼盘"属于概念级别2,置信度为0.75;"房产"属于概念级别1,置信度为0.43;"学校"属于概念级别2,置信度为0.25;"教育"属于概念级别1,置信度为0.14。同时在网站的分页面我们也开放了各类概念数据集的下载链接。

 

结语及致谢

由于OpenConcepts是基于自动化算法从互联网语料获取的,其中难免存在错误的数据,在此表达歉意。感谢毕祯提供算法上的支持、唐坤实现在线演示系统,邓淑敏、余海阳、叶宏彬、杨嘉诚、李娟、邓鸿杰、李泺秋、杨帆、陈想、谢辛等提供数据和技术上的支持。

 


 

OpenKG

OpenKG(开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478240.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 594. 最长和谐子序列(map)

文章目录1. 题目2. 解题2.1 map两次扫描2.2 map一次扫描1. 题目 和谐数组是指一个数组里元素的最大值和最小值之间的差别正好是1。 现在,给定一个整数数组,你需要在所有可能的子序列中找到最长的和谐子序列的长度。 示例 1: 输入: [1,3,2,2,5,2,3,7] …

MTDDL——美团点评分布式数据访问层中间件

2016年Q3季度初,在美团外卖上单2.0项目上线后,商家和商品数量急速增长,预估商品库的容量和写峰值QPS会很快遇到巨大压力。随之而来也会影响线上服务的查询性能、DB(数据库,以下统一称DB)主从延迟、表变更困…

详解预训练模型、信息抽取、文本生成、知识图谱、对话系统技术

我们正处在信息爆炸的时代、面对每天铺天盖地的网络资源和论文、很多时候我们面临的问题并不是缺资源,而是找准资源并高效学习。其次,即便网络上的资源非常多,学习是需要成本的,而且越有深度的内容越难找到好的学习资源。如果一门…

会议交流 | 欢迎注册 CCKS2021 全国知识图谱与语义计算大会!

欢迎注册 CCKS2021 全国知识图谱与语义计算大会知万物过去 谱AI未来2021年8月18日至8月21日 广州http://sigkg.cn/ccks2021主办:中国中文信息学会语言与知识计算专业委员会 承办:广东外语外贸大学注册介绍早期注册 1800元/人2021年7月28日前&…

LeetCode 1171. 从链表中删去总和值为零的连续节点(哈希表)

1. 题目 给你一个链表的头节点 head,请你编写代码,反复删去链表中由 总和 值为 0 的连续节点组成的序列,直到不存在这样的序列为止。 删除完毕后,请你返回最终结果链表的头节点。 你可以返回任何满足题目要求的答案。 &#x…

移动端性能监控方案Hertz

性能问题是造成App用户流失的罪魁祸首之一。App的性能问题包括崩溃、网络请求错误或超时、响应速度慢、列表滚动卡顿、流量大、耗电等等。而导致App性能低下的原因有很多,除去设备硬件和软件的外部因素,其中大部分是开发者错误地使用线程、锁、系统函数、…

刷新SOTA!Salesforce提出跨模态对比学习新方法,仅需4M图像数据!

文 | 子龙多模态已经不是一个新鲜的话题,如何在一个模型中融合CV和NLP的信息同时吸引了两个领域的目光(CV、NLP的会都能投),但是很容易就能想到,来自图片的视觉特征和来自语料的文本特征来自不同的模型,所隐…

论文浅尝 - ACL2021 | 探讨跨句事件联合抽取问题

转载公众号 | 浙大KG论文题目:MLBiNet: A Cross-Sentence Collective Event Detection Network本文作者:娄东方、廖智霖、邓淑敏、张宁豫、陈华钧(浙江大学)接收会议:ACL 2021论文链接:https://arxiv.org/p…

LeetCode 343. 整数拆分(DP)

1. 题目 给定一个正整数 n,将其拆分为至少两个正整数的和,并使这些整数的乘积最大化。 返回你可以获得的最大乘积。 示例 1: 输入: 2 输出: 1 解释: 2 1 1, 1 1 1。示例 2: 输入: 10 输出: 36 解释: 10 3 3 4, 3 3 4 36。 说明: 你可以假设 …

python-dotenv解析env文件

python-dotenv解析env文件 最简单和最常见的用法是在应用程序启动时调用load_dotenv,从当前目录或其父目录中的.env文件或指定的路径加载环境变量,然后调用os.getenv提供的与环境相关的方法 .env 文件内容写法 ADMIN_HOST https://uat-rm-gwaaa.cn A…

HDFS NameNode内存详解

前言 《HDFS NameNode内存全景》中,我们从NameNode内部数据结构的视角,对它的内存全景及几个关键数据结构进行了简单解读,并结合实际场景介绍了NameNode可能遇到的问题,还有业界进行横向扩展方面的多种可借鉴解决方案。 事实上&am…

组队瓜分百万奖金池,资深算法工程师带你挑战飞桨论文复现赛!

你是否正在焦虑找不到好的论文?好不容易找到了paper,无法复现出code?缺少科研同行交流,只能独自一人闭门造车?是的,论文复现是要想最快的学习和了解AI领域的方式,复现困境也被叫做“徘徊在 AI 上…

开源开放 | Beyond 预训练语言模型,NLP还需要什么样的知识?

近年来,深度学习技术已广泛应用于NLP领域,但实际应用效果往往受限于缺乏大规模高质量监督样本。2018年底,预训练语言模型横空出世,极大缓解了这个问题,通过“超大规模无监督语料上的预训练语言模型相对少量的监督样本进…

Docker把容器打包成镜像并提交到harbor仓库

Docker把容器打包成镜像并提交到harbor仓库 如果你想要保存当前容器的状态,就可以通过commit来提交获得一个镜像,就好我们虚拟机的时候创建快照,想要回滚到某一个版本 一、首先创建要给tomcat 的本地容器,镜像指定tomcat-alpine:8…

LeetCode 139. 单词拆分(DP)

1. 题目 给定一个非空字符串 s 和一个包含非空单词列表的字典 wordDict,判定 s 是否可以被空格拆分为一个或多个在字典中出现的单词。 说明: 拆分时可以重复使用字典中的单词。 你可以假设字典中没有重复的单词。 示例 1: 输入: s "…

外卖排序系统特征生产框架

背景 图1 外卖排序系统框架 外卖的排序策略是由机器学习模型驱动的,模型迭代效率制约着策略优化效果。如上图所示,在排序系统里,特征是最为基础的部分:有了特征之后,我们离线训练出模型,然后将特征和模型一…

征稿 | “健康知识图谱”投稿通道开启

Data Intelligence正在与语义网国际知名学者Deborah McGuinness以及Oshani Seneviratne等专家一道组织“个人健康知识图谱”专辑。欢迎投稿!DI专辑Special Issue on Personal Health Knowledge Graphs This special issue at Data Intelligence Journal seeks origi…

清华提出LogME,无需微调就能衡量预训练模型的下游任务表现!

文 | 游凯超源 | THUML引言在深度学习时代,神经网络的参数量越来越大,从头开始训练(train from scratch)的成本也越来越大。幸运的是,在计算机视觉、自然语言处理等人工智能应用的主要领域,人们能够采用迁移学习的预训练-微调范式…

好的代码标准

需求分析文档需要用精确的数字来描述,避免量变导致质变

LeetCode 140. 单词拆分 II(DP+回溯)

1. 题目 给定一个非空字符串 s 和一个包含非空单词列表的字典 wordDict,在字符串中增加空格来构建一个句子,使得句子中所有的单词都在词典中。返回所有这些可能的句子。 说明: 分隔时可以重复使用字典中的单词。 你可以假设字典中没有重复的…