开源开放|数据地平线通过OpenKG开放全行业因果事理、大规模实时事理等7类常识知识库...

本期介绍开放中文简称、中文同义、中文抽象、全行业因果事理、实体概念描述、实时事理知识库、军事武器装备知识等七个事理相关知识图谱。截至目前,该七个数据集规模达数千万、累计下载次数达两千余次,可用于底层事理推理、查询扩展、数据增强等多个自然语言处理任务。

一、全行业因果事理图谱(前因后果)检索知识库

该数据集开放了经过事件标准化、事件对齐、事件融合等处理后,具有动态更新能力的千万级多行业领域事理图谱。该平台以可视化的方式,对输入的特定事件的原因和结果进行展示,数据集对社会开放使用,可为分析师以及其他行业人员提供领域和常识性的事件推理历史经验库。

数据集地址:

http://www.openkg.cn/dataset/causalgraph

二、学迹:大规模实时(事件逻辑与概念)事理知识库

该数据集开放了实时事理逻辑知识库终身学习和以事件为核心的知识库搜索服务,包括事件概念抽取、事件因果逻辑抽取、事件数据关联推荐与推理。截至目前,已积累事件概念描述三元组500余万,因果事件三元组两千余万,概念上下位三元组一百余万,围绕事件,提供事件的前序原因、后续结果,事件的关联概念,事件关联产业链的搜索。

数据集地址:

http://www.openkg.cn/dataset/event-concept-graph-xueji

三、开源军事武器装备知识图谱

本数据集开放了108,854个军事武器信息三元组,共包括8大类、148小类的武器装备,涉及国家88个,武器类实体5800个,实体属性关系184类,实体上位关系1类。基于该武器装备知识图谱,提供了一个基于模式和打标签方式的问答系统。

数据集地址:

http://www.openkg.cn/dataset/military-weapon-kg

四、中文简称知识三元组

该数据集开放了136,081条中文简称知识三元组,涉及高校、商品名称、公司简称等多个领域,来自公开网络文本简称抽取、人工整理等多个渠道,可用于简称抽取评测、实体链接、搜索查询扩展、句子改写等多个场景。格式为:中国经理管理大学,简称,中经大。

数据集地址:

http://www.openkg.cn/dataset/abbr-knowlege-triples

五、中文同义知识三元组

该数据集公开了超过43万的中文同义知识三元组,来源于公开数据文本同义词挖掘、词典整理与人工修正等多个渠道,可用于同义词扩展相关应用,如搜索扩展查询、句子相似度计算等。

数据集地址:

http://www.openkg.cn/dataset/sim-knowlege-triples

六、中文抽象知识三元组

该数据集开放了高质量的346,048条中文抽象知识三元组知识库,来源于公开网络文本抽象三元组挖掘、人工手工整理等多个渠道,覆盖商品、行业、动作、性状、名词性实体等多种类型。可用于查询扩展、句子改写、句子相似度计算、句子推荐等多个应用场景。

数据集地址:

http://www.openkg.cn/dataset/35

七、87万通用领域实体概念描述三元组

该数据集开放了87万实体概念描述知识库,基于开放文本挖掘而成,格式为[实体/概念,描述体,置信度], 如[谷歌,全球最大互联网搜索企业,1.0]、[亚马逊,美国最大电商和云服务企业,1.0]。一方面,可用于常识问答、隐藏推理逻辑挖掘、实体信息embedding等;另一方面可为概念上下位知识图谱提供数据来源,拓展现有概念知识维度。

数据集地址:

http://www.openkg.cn/dataset/concept-desc-kg

以上七个数据集由数据地平线开放共享,关于数据集的进一步详情信息,可联系刘焕勇,huanyong@datahorizon.cn。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478943.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

写给工程师的十条精进原则

引言 时间回到8年前,我人生中第一份实习的工作,是在某互联网公司的无线搜索部做一个C工程师。当时的我可谓意气风发,想要大干一场,结果第一次上线就写了人生中第一个Casestudy。由于对部署环境的不了解,把SVN库里的配置…

我删掉了Transformer中的这几层…性能反而变好了?

文 | chaos编 | 小轶基于Transformer结构的各类语言模型(Bert基于其encoder,Gpt-2基于其decoder)早已经在各类NLP任务上大放异彩,面对让人眼花缭乱的transformer堆叠方式,你是否也会感到迷茫?没关系,现在让…

LeetCode 821. 字符的最短距离

1. 题目 给定一个字符串 S 和一个字符 C。返回一个代表字符串 S 中每个字符到字符串 S 中的字符 C 的最短距离的数组。 示例 1:输入: S "loveleetcode", C e 输出: [3, 2, 1, 0, 1, 0, 0, 1, 2, 2, 1, 0]来源:力扣(LeetCode) 链…

论文浅尝 - ESWC2020 | ESBM:一个面向实体摘要的评测集

本文转载自公众号:南大Websoft。实体摘要(Entity Summarization),是知识图谱研究与应用中的一个关键问题。南京大学Websoft团队为此制作了一个评测集,称作ESBM,是目前可以公开获取的规模最大的评测集。这项…

美团在O2O场景下的广告营销

美团作为中国最大的在线本地生活服务平台,覆盖了餐饮、酒店、旅行、休闲娱乐、外卖配送等方方面面生活场景,连接了数亿用户和数百万商户。如何帮助本地商户开展在线营销,使得他们能快速有效地触达目标用户群体提升经营效率,是美团…

LeetCode 202. 快乐数(快慢指针)

1. 题目 2. 解题 一个数经过若干次各位数平方和后,会等于它自己使用类似环形链表的快慢指针法,最终快慢指针相遇,若不为1则是不快乐数 class Solution { public:int bitSquareSum(int n) {int sum 0, bit;while(n > 0){bit n % 10;su…

全栈深度学习第4期: 机器学习岗位区别与团队管理

一起追剧鸭简介Berkeley全栈深度学习追剧计划是由夕小瑶的卖萌屋发起的优质公开课打卡项目,通过微信群为同期追剧的小伙伴提供交流平台。关于该计划的详请见这里。Berkeley深度学习追剧群目前已有1000小伙伴加入,公众号后台回复口令 深度学习追剧 入群。…

会议交流 | DataFunCon 线上大会 - 知识图谱专题论坛

OpenKG开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。点击阅读原文,进入 OpenKG 博客。

我国政务大数据政策的文本分析:推进逻辑与未来进路

原文地址:https://www.sohu.com/a/238844423_99983415 摘要:[目的/意义]从已颁布政策文件中找出我国推进政务大数据发展和应用的内在逻辑, 为优化未来的政策路径提供对策建议。[方法/过程]通过政府门户网站收集189条有效政策文本, 综合运用词频分析软件…

Flutter原理与实践

Flutter是Google开发的一套全新的跨平台、开源UI框架,支持iOS、Android系统开发,并且是未来新操作系统Fuchsia的默认开发套件。自从2017年5月发布第一个版本以来,目前Flutter已经发布了近60个版本,并且在2018年5月发布了第一个“R…

LeetCode 522. 最长特殊序列 II

1. 题目 给定字符串列表,你需要从它们中找出最长的特殊序列。 最长特殊序列定义如下:该序列为某字符串独有的最长子序列(即不能是其他字符串的子序列)。 子序列可以通过删去字符串中的某些字符实现,但不能改变剩余字…

论文浅尝 - 计算机工程 | 大规模企业级知识图谱实践综述

本文转载自公众号:计算机工程。大规模企业级知识图谱实践综述王昊奋, 丁军, 胡芳槐, 王鑫中文摘要:近年来,知识图谱及其相关技术得到快速发展,并被广泛应用于工业界各种认知智能场景中。在简述知识图谱相关研究的基础上&#xff0…

2021年了,对话系统凉透了吗?

文 | 兔子酱编 | 夕小瑶大家好,我是可盐可甜的兔子酱,一枚卖萌屋的资深潜水小编,今天终于有了自己的第一篇文章,希望耗时一周撰写的本文能让大家有所收获~这篇文章,算是对自己在头部大厂2年算法岗炼丹经历的一个经验浓…

前端可用性保障实践

本文基于已发表在Infoq的“美团收银台前端可用性保障实践”一文编辑而成。 一般可用性都是说后端服务的可用性,都说我们的服务可用性到了几个9,很少有人把可用性放到前端来。其实对于任何一个有UI交互流程的业务,都会有前端服务可用性&#x…

LeetCode 762. 二进制表示中质数个计算置位

1. 题目 给定两个整数 L 和 R ,找到闭区间 [L, R] 范围内,计算置位位数为质数的整数个数。 (注意,计算置位代表二进制表示中1的个数。例如 21 的二进制表示 10101 有 3 个计算置位。还有,1 不是质数。) …

报名通道开启 | 顶会 ICLR 2021:医疗对话生成与自动诊断国际竞赛,邀你来战!...

ICLR,2013 年由深度学习三巨头中的Yoshua Bengio 和 Yann LeCun 牵头创办,已受到研究者和开发者的广泛认可,是当之无愧的深度学习领域顶级会议。今年,由中山大学、加利福尼亚大学圣迭戈分校和腾讯天衍实验室等组织联合举办的医疗对…

论文浅尝 | 图神经网络的对抗攻击和防御相关文献集

本文转载自公众号:专知。作者:Wei Jin。导读:本资源整理了关于图形数据或GNN(图形神经网络)上的对抗攻击和防御的论文链接。并对其进行分类。目录Survey PapersAttack PapersDefense PapersCertified Robustness Papers地址连接:h…

李宏毅《机器学习》作业班+带打比赛

人工智能来势汹汹,学习人工智能该从哪里开始呢?人工智能的学习路径又是怎样的?须知入门人工智能第一步就是机器学习。但是,在上千份同学的学习反馈中,我们发现了2个人工智能学习领域的痛难点:1、课程偏理论…

论文浅尝 – KDD2020 | 使用图对比编码的图神经网络预训练模型

论文笔记整理:陈名杨,浙江大学在读博士生,研究方向为知识图谱表示学习。图表示学习是一个当前关注度较高的领域,并且有许多真实的应用。然而当前的很多图表示学习方法都是对一个领域或者某一个图训练一个模型,也就是说…

LeetCode 575. 分糖果(set集合去重)

1. 题目 给定一个偶数长度的数组,其中不同的数字代表着不同种类的糖果,每一个数字代表一个糖果。你需要把这些糖果平均分给一个弟弟和一个妹妹。返回妹妹可以获得的最大糖果的种类数。 输入: candies [1,1,2,2,3,3] 输出: 3 解析: 一共有三种种类的糖…