PersonGraphDataSet近十万的开放人物关系图谱项目

PersonGraphDataSet

PersonGraphDataSet, nearly 10 thousand person2person relationship facts that build from extraction method, which can be applied to person kg search and inference applications。 人物图谱数据集,近十万的人物关系图谱事实数据库,通过人物关系抽取算法抽取+人工整理得出,可用于人物关系搜索、查询、人物关系多跳问答,以及人物关系推理等场景提供基础数据。

项目地址:https://github.com/liuhuanyong/PersonRelationKnowledgeGraph

项目由来

关于为什么要开放这个项目,主要有以下几个方面的缘由:
1、阶段性总结。以刻画人物复杂关系为核心的网络关系网构建,居于十分重要的现实意义,两年前,带着个人兴趣,发布了一个未完成版的人物关系知识图谱项目(https://github.com/liuhuanyong/PersonRelationKnowledgeGraph),尝试采用基于知识库的数据回标,基于远程监督与bootstrapping方法的人物关系抽取,并以此完成基于知识图谱的知识问答等应用。但但由于工作时间为题,一直没能更新。今天,先对该工作的一个结果数据集开放出来,以对之前的项目做一个阶段性的总结。
2、数据集空缺。目前,面向中文领域的人物关系抽取数据集,还相对较少,代表性有ccks2019的开放数据集(https://arxiv.org/abs/1907.12801) ,该数据集公开了亲属关系、社交关系、师生关系三大类,现夫、潜伏、朋友、恋人等34小类的人物关系数据集。该数据集是面向评测使用的,其所涉及的人物关系类型有限,并且不提供现成可用的人物关系数据。
3、应用驱动。当前,面向知识图谱入门级别的知识图谱推理、知识图谱可视化、知识问答、图谱搜索等场景,还缺乏可用的数据集。目前关于人物关系方面的应用,目前看到的,主要是百科类的展示以及搜狗人物图谱(https://www.sogou.com/tupu/person.html) 为代表,虽说是娱乐导向,但目前还缺乏这样的练手的数据和项目。
4、应用支撑。基于开放出来的人物关系知识数据,大家可以在此基础上进行多种应用尝试,包括算法训练、知识图谱入门、培训等等,这十分有意义。

项目构成

本项目一共包括三个文件,分别记录人物关系元组信息以及关系类型信息:
1、big_rel_distribution.txt:大类关系及其分布文件。
2、person_rel_kg.data:人物关系图谱数据集文件。
3、small_rel_distribution.txt:小类关系及其分布文件

数据概况

本数据集,一共包括97,158条人物关系数据,涉及人物71,243个,大类关系102个,小类关系266条,大致的情况具体如下:

数据类型数据规模示例
关系数目97,158父亲、母亲、女友
人物数目71,243姚明、易建联、乔布斯
大类关系数102父亲、母亲、朋友
小类关系数266闺蜜、女好友、前妻

关系类型

本数据集对人物关系进行了上下级分类,针对小类关系进一步归类整理成了若干个大类,选取小类数大于3的大类进行展示,如下表所示:

关系大类关系小类
敌人死敌;传闻不和;竞争对手;死对头;敌人;对手;骂战
父亲父亲;其父;继父;生父;干爹;义父;养父
学生学生;爱徒;徒孙
合作同伙;合作人;相声搭档;合作演员;合作;影视搭档;戏曲搭档;搭档;同时期队友;前队友;队友;国家队队友;女双搭档;主持搭档;合作伙伴;盟友;戏曲合作;混双搭档;合伙人
情人初恋;配偶;情侣;情人;伴侣;情敌;旧爱;情夫;爱人;前任;恋人;心上人;分手
朋友圈中好友;同伴;密友;友人;伙伴;好友;圈内好友;红颜知己;挚友;女好友
丈夫未婚夫;第二任丈夫;现任丈夫;前夫;第一任丈夫;丈夫
祖先祖先;鼻祖;始祖;先祖
姐姐大姐;二姐;姐姐
妻子妻妾;第二任妻子;现任妻子;第三任妻子;未婚妻;前妻;妻子;第一任妻子
同门同门师兄;校友;师妹;师弟;师兄弟;师姐
弟弟义弟;三弟;弟弟;五弟;四弟;六弟;胞弟;二弟
女儿女儿;继女;大女儿;养女;次女;干女儿;义女;三女;长女;二女儿;小女儿
儿子四子;三子;大儿子;干儿子;儿子;次子;五子;继子;义子;小儿子;二儿子;养子;幼子;长子
哥哥三哥;哥哥;长兄;二哥;四哥;大哥;五哥
家人亲戚;家属;亲属;近亲;亲人;孩子;家人;长辈
老师启蒙教练;师祖;师;师叔;师承;老师;现任教练;教练;班主任;伯乐
母亲义母;生母;养母;继母;干妈;母亲
下属下级;下属;属下;部下;君臣
同学同班同学;同学;同门
继任者继任者;后裔;继承人;后人;后代;继任
偶像喜欢的演员;最喜欢的歌手;喜欢的歌手;偶像
妹妹义妹;二妹;三妹;妹妹

数据分布

目前,共涉及大类关系102个,小类关系266条,大类的top20样例如下:

关系类型关系规模示例关系类型关系规模示例
合作14,048<左永邦,合作演员,合作,王珞丹>哥哥2,379<周星霞,哥哥,哥哥,周星驰>
朋友13,632<祖孙登,好友,朋友,张正见>学生2,017<左宏元,学生,学生,邓丽君>
父亲6,857<左太北,父亲,父亲,左权>敌人1,948<左武王,死敌,敌人,诸葛正我>
丈夫5,348<左蓝,未婚夫,丈夫,余则成>弟弟1,880<祝龙,弟弟,弟弟,祝彪>
情人4,880<庄睿,爱人,情人,秦萱冰>同学1,695<祖峰,同学,同学,黄晓明>
老师4,727<左欣然,老师,老师,许蕙兰>女友1,427<邹世龙,前女友,女友,梅艳芳>
儿子4,631<左武王,儿子,儿子,安祯侯>妹妹1,384<祝齐英,妹妹,妹妹,祝英台>
妻子4,491<祖峰,现任妻子,妻子,刘天池>姐姐1,149<卓龙,姐姐,姐姐,卓凤>
母亲3,832<卓玥,母亲,母亲,邓榕>子女977<朱寿,子女,子女,朱厚熜>
女儿2,583<宗庆后,女儿,女儿,宗馥莉>祖父962<周璟馨,祖父,祖父,周海婴>

数据样例

1、数据格式为:<人物1,小类关系,大类关系,人物2>,为四元组形式,以满足不同的数据需求。
2、注意:为了对存在歧义的实体,采用了实体[实体简短描述]的方式进行区分处理。
3、样例数据:

"""周洋,队友,合作,孙琳琳周洋,队友,合作,王濛周洋,队友,合作,张会周洋,启蒙教练,老师,崔顺子周洋,老师,老师,李琰周扬[中国内地女演员],搭档,合作,叶童周扬[中国内地女演员],好友,朋友,蒋欣周扬[中国内地女演员],同学,同学,黄渤周扬,搭档,合作,高圆圆周扬,搭档,合作,叶童周扬,好友,朋友,蒋欣周扬,好友,朋友,霍思燕周扬,好友,朋友,佟丽娅周扬,同学,同学,黄渤
"""

数据应用

拥有了刻画人与人之间的复杂关系数据集,可以支撑包括知识问答、多跳推理、图谱可视化、未知关系推理、数据回标、特征增强、人物推荐、人物建模等多种应用尝试和科学研究:

大类场景小类场景应用举例
信息检索知识问答姚明的老婆是谁?
信息检索多跳推理姚明的女儿的爷爷是谁?
信息检索图谱可视化将数据导入图数据库,进行图谱可视化展示
信息检索未知关系推理给定两个人物节点,进行人物之间的潜在关联路径发现
信息抽取数据回标根据结构化人物关系数据,利用远程监督方法进行回标
信息抽取特征增强根据结构化人物关系数据,将用户的关联关系作为某个用户的某个特征
信息推荐人物推荐根据关注某个人物,类推出与该人物相关的其他人物
用户画像人物建模利用某个人物的关联信息,对其进行特征表示和画像建模

项目总结

1、本项目开放了一个人物关系知识图谱数据集,一共包括97,158条人物关系数据,涉及人物71,243个,大类关系102个,小类关系266条。
2、本项目采用了数据格式为:<人物1,小类关系,大类关系,人物2>,为四元组形式,可以满足不同的数据使用需求。
3、基于本项目,可以支撑包括知识问答、多跳推理、图谱可视化、未知关系推理、数据回标、特征增强、人物推荐、人物建模等多种应用尝试和科学研究工作。
4、本项目面向开放文本,采用人物关系抽取模型进行抽取形成,经人工矫正后,可以保证数据的质量。

关于作者

刘焕勇,中国科学院软件研究所,专注金融、情报两大领域,从事事件抽取、事件演化、情感分析、事理(知识)图谱、常识推理、语言资源构建与应用等研发工作。如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我:
1、我的github项目介绍:https://liuhuanyong.github.io
2、我的csdn技术博客:https://blog.csdn.net/lhy2014
3、我的联系方式: 刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com.
4、我的共享知识库项目:刘焕勇,数据地平线,http://www.openkg.cn/organization/datahorizon.
5、我的工业项目:刘焕勇,数据地平线,大规模实时事理学习系统:https://xueji.datahorizon.cn.
6、我的工业项目:刘焕勇,数据地平线,面向事件和语义的自然语言处理工具箱:https://nlp.datahorizon.cn
7、我的公众号:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480245.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

图Graph--寻找二度好友(BFS应用)

社交网络可以用图来表示&#xff08;查阅图的概念&#xff09;。 寻找二度好友&#xff0c;这个问题就非常适合用图的广度优先搜索BFS算法来解决&#xff0c;因为广度优先搜索是层层往外推进的。 首先&#xff0c;遍历与起始顶点最近的一层顶点&#xff0c;也就是用户的一度好…

技术动态 | TechKG:一个面向中文学术领域的大型知识图谱

作者&#xff1a;东北大学-知识图谱研究组 任飞亮TechKG 是一个面向中文、面向学术、多领域的大型知识图谱知识库&#xff0c;知识库由“东北大学-知识图谱研究组”开发完成。和已有知识图谱如 Freebase 或 YAGO 相比&#xff0c;TechKG 具有如下主要特点&#xff1a;1、是一个…

技术总结:图算法、开源工具及其在工业界的应用场景概述

知识图谱本质上是一种图结构&#xff0c;在图内部数据规模大且质量高、外部算力足够的情况下&#xff0c;充分利用好图算法&#xff0c;能够最大程度地发挥出其数据价值。实际上&#xff0c;图&#xff08;Graph&#xff09;是一个常见的数据结构&#xff0c;现实世界中有很多很…

SIGIR2020 | 淘宝提出结合知识图谱与大规模推荐的新框架ATBRG

星标/置顶小屋&#xff0c;带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 江城编 | 夕小瑶今天分享一篇淘宝发表在 SIGIR2020 上的关于知识图谱应用于大规模推荐的论文《ATBRG: Adaptive Target-Behavior Relational Graph Network for Effective Recommendation》&#xff0c…

图Graph--农夫过河问题(BFS/DFS应用)

农夫过河问题&#xff1a; /*** description: 农夫过河问题&#xff08;羊&#xff0c;白菜&#xff0c;狼&#xff09;&#xff0c;一次最多带一个东西过河&#xff0c;* 农夫不在的情况下羊会吃白菜&#xff0c;狼会吃羊&#xff0c;如何平安过河* author…

机器学习之「二分类算法」-----银行营销案例分析

原文地址&#xff1a; <di&#xff1a;https://blog.csdn.net/weixin_44696674/article/details/88231922iv id“article_content” class“article_content clearfix” data-track-view"{“mod”:“popu_307”,“con”:",https://blog.csdn.net/weixin_44696674/…

论文浅尝 | 直译优于翻译?混合语言的知识库问答方法研究

动机作者思考&#xff0c;如果一个人懂多个语言&#xff0c;那么只要他知道某一语言的某个事实&#xff0c;就能以它作为另一语言问题的答案&#xff0c;同时希望证明计算机是否也能做到这一点&#xff0c;并完成混合语言的简单问题知识问答任务&#xff08;Code-Mix Simple Qu…

2018最新Java面试78题:数据结构+网络+NoSQL+分布式架构

算法和数据结构 数组、链表、二叉树、队列、栈的各种操作&#xff08;性能&#xff0c;场景&#xff09; 二分查找和各种变种的二分查找 各类排序算法以及复杂度分析&#xff08;快排、归并、堆&#xff09; 各类算法题&#xff08;手写&#xff09; 理解并可以分析时间和空…

工程实践:基于规则模式的军事和医药领域知识图谱问答快速实现

知识结构化问答是知识图谱的一个重要的应用方向&#xff0c;虽然现在许多真实的使用体验上&#xff0c;会被评价为“鸡肋且智障”&#xff0c;并且在落地上还没有太多的付费场景&#xff0c;但也不乏有不少学生、公司、机构在尝试花时间去做这个事情。当前&#xff0c;医疗知识…

图Graph--最小生成树

文章目录1.概念2.构造最小生成树Prim算法3.构造最小生成树Kruskal算法1.概念 对图运用不同的遍历方法就可能得到图的不同遍历顺序&#xff0c;每一种遍历顺序对应于一棵生成树对于无向连通图&#xff0c;所有的生成树中必有一棵树的所有边的权的总和最小的&#xff0c;称之为最…

Longformer:超越RoBERTa,为长文档而生的预训练模型

星标/置顶小屋&#xff0c;带你解锁最萌最前沿的NLP、搜索与推荐技术文 | ChrisCao, 小轶前言今天要与大家分享的是AllenAI今年发表的最新工作&#xff0c;Longformer——一种可高效处理长文本的升级版Transformer。作者团队提供了开源代码&#xff0c;大家可快速复现&#xff…

工程实践:基于规则句法的事件关系与主谓宾三元组抽取项目实现

目前&#xff0c;知识图谱在学术界如火如荼地进行&#xff0c;但受限于知识图谱各个环节中的性能问题&#xff0c;还尚未能够在工业界大规模运用。而与知识图谱中以实体为知识节点&#xff0c;实体关系为实体关系边对知识进行组织不同&#xff0c;以事件作为节点&#xff0c;事…

论文浅尝 | LightRNN:存储和计算高效的 RNN

链接&#xff1a;https://arxiv.org/pdf/1610.09893.pdf动机在NLP任务中使用RNN已经被证明是很有用的模型方法。但是传统的RNN在NLP中的应用有一个很大的限制&#xff1a;RNN的输出输入Embedding占用的空间太大&#xff0c;比如1024维10M词表大小的Embedding矩阵就要占掉40GB&a…

阿里最全Java面试100题汇总:涵盖天猫、蚂蚁金服等面试题!含答案~

【阿里天猫、蚂蚁、钉钉面试题目】 1、微信红包怎么实现。 2、海量数据分析。 3、测试职位问的线程安全和非线程安全。 4、HTTP2.0、thrift。 5、面试电话沟通可能先让自我介绍。 6、分布式事务一致性。 7、nio的底层实现。 8、jvm基础是必问的&#xff0c;jvm GC原理&a…

ACL2020 奇葩论文标题大赏

星标/置顶小屋&#xff0c;带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 灵魂写手rumor酱编 | 不拖更的夕小瑶又是一年一度的ACL&#xff0c;之前通过卖萌屋Arxiv服务已经零零碎碎看了一些&#xff0c;还是准备刷一下论文list&#xff0c;看看哪篇能让我的模型效果一飞冲天。…

字符串匹配算法(BF RK)

文章目录1. BF&#xff08;Brute Force&#xff09;暴力匹配BF代码2. RK&#xff08;Rabin-Karp&#xff09;算法RK代码3. 思考题&#xff1a;&#xff08;二维匹配&#xff09;1. BF&#xff08;Brute Force&#xff09;暴力匹配 BF算法的思想&#xff0c;在主串中&#xff0…

用Python寻找最优投资组合

原文地址&#xff1a;https://www.jianshu.com/p/2a25dfd465e9 现代投资组合理论&#xff08;Modern Portfolio Theory&#xff0c;MPT&#xff09;告诉我们投资者应该分散投资来实现最小化风险最大化投资回报。大邓刚开始学习这方面知识&#xff0c;用了将近一天的时候才搞懂M…

技术动态 | 事理图谱,下一代知识图谱

本文转载自公众号&#xff1a;DataHorizon。 人工智能与认知智能当前人工智能时代下&#xff0c;机器与人类之间的博弈一直在进行着。如图1所示&#xff0c;从1926年达特茅斯会议的召开标志人工智能诞生到深度学习模型在…

头条Java后台3面(含答案):事务+List集合+慢查询SQL+Redis+秒杀设计

头条Java一面 1.讲讲jvm运行时数据库区 2.讲讲你知道的垃圾回收算法 3.jvm内存模型jmm 4.内存泄漏与内存溢出的区别 5. select、epoll 的区别&#xff1f;底层的数据结构是什么&#xff1f; 6.mysql数据库默认存储引擎&#xff0c;有什么优点 7.优化数据库的方法&#xf…

CNN卷积神经网络(吴恩达《卷积神经网络》笔记一)

CNN 卷积网络说明卷积 Convolution填充 Padding步长 StrideRGB图像卷积池化 Pooling完整CNN为什么人们喜欢用卷积神经网络&#xff1f;实例分析说明 关于CNN的基础知识&#xff1a;卷积、填充、步长、池化、完整的深度CNN网络可以参考 链接: AI学习笔记——卷积神经网络&#…