中文人物关系图谱构建与应用项目(人物关系抽取,关系抽取评测)

ChinesePersonRelationGraph

ChinesePersonRelationGraph, person relationship extraction based on nlp methods.中文人物关系知识图谱项目,内容包括中文人物关系图谱构建,基于知识库的数据回标,基于远程监督与bootstrapping方法的人物关系抽取,基于知识图谱的知识问答等应用.
项目地址:https://github.com/liuhuanyong/PersonRelationKnowledgeGraph

项目介绍

知识抽取(实体关系抽取)是知识图谱构建中的核心环节,实体关系抽取作为一项基本技术在自然语言处理应用中扮演着重要作用.
究其技术而言,主要分成两种三种主流方法:

1, 基于规则的方法

在工业界大多还是使用的规则模板的方法,这个可以参考我的相关项目:
1)https://github.com/liuhuanyong/EventTriplesExtraction, 这是借助依存句法与语义角色标注的方法.
2)https://github.com/liuhuanyong/ComplexEventExtraction, 这个项目提供了复合事件的基本模式,可以初步筛选出候选的因果,反转等事件
3)https://github.com/liuhuanyong/SequentialEventExtration, 这个项目提供了一种基于VOB模式的顺承事件抽取方法,讲的是一种顺承关系
基于规则的方法,升级版的话,就是Bootstrapping了,可以通过用户自定义种子模板,不断迭代,最终扩充模式,但置信度这个问题不是很好解决 #

2, 基于学习的方法

这个在学术界用的比较多,从机器学习一直演变了到现在的各种深度学习模型,而在这种方法中,通常实体关系抽取问题转换成一个实体关系分类任务去做,主要可以分成一下几种.
1)基于全监督的实体关系抽取
这个全监督,也就是说,基于完全标注数据的一种学习方式,例如著名的实体关系评测Semeval系列,给出了19种关系分类任务,ACE给出了17类的实体关系分类任务.针对这些任务,模型经历了CNN,LSTM,ATTENTION等,这里就不再说明.
2)基于噪声数据的远程监督实体关系抽取
全监督模型固然很好,但数据是一个很棘手的问题,因此就出现了远程监督的方法,所谓远程监督,个人理解就是已经存在的知识库进行数据回标,然后通过多实例学习进行一种容许噪声的监督方法.不过这种方法准确率不是很高,在NYT这个数据集上,PCNNS等工作都没有达到业业界可以使用的地步.当然,最新出现了联合训练的模型.
3)基于规则与学习模型融合的实体关系抽取
这种方式,在业界或许是一种出路,例如,将实体关系抽取中的实体识别部分交给学习模型去做序列标注,最后针对实体之间的关系,结合依存句法等语义规则去做,这个在解决实体的多种关系问题,可以去尝试.

3, 当前问题

但就针对全监督的实体关系抽取任务而言,在英文数据集上已经在刷各种state-of-art,但就中文而言,感觉还是一片贫瘠.在网上搜了很久,最终指搜到COAE2016的一个评测任务,但是,评测集不公开.因此,就抛出了本项目构建的几个初衷:
1, 中文实体关系抽取数据集很少,能不能构建一个准确率可接受的数据集?
2, 能不能浅显易懂地把那些"高大上"的远程监督,bootstrapping经历一遍?
3, 人物关系数据在百科等平台上都有放出,或许可以做为远程监督的先验知识库?
4, 能否提供一个实时动态更新的人物关系图谱方法?

4,项目任务

因此,本项目将尝试完成以下几个任务:
1, 完成一定规模的人物关系知识库, 作为公开数据集开放出去
2, 走一遍实体关系回标,形成一个准确性相对允许的人物关系抽取数据集
3, 走一遍基于学习方式实体关系抽取,查看一下效果,熟悉一下这个技术流程
4, 走一便基于Bootstrapping的实体关系抽取,熟悉一下这个技术流程
5, 基于构建起来的人物关系图谱,完成一个面向人物关系图谱的知识问答

项目架构图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Bf7opFmi-1620385961150)(https://github.com/liuhuanyong/ChinesePersonRelationGraph/blob/master/image/project_route.png)]

人物关系基础知识库

1,收集人名词典
2,基于人名词典,采集搜狗人物关系图谱数据库

刘备人物关系网

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WTMqOl0M-1620385961151)(https://github.com/liuhuanyong/ChinesePersonRelationGraph/blob/master/image/person_graph1.png)]

2# 韩寒人物关系网
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hllj9tOZ-1620385961152)(https://github.com/liuhuanyong/ChinesePersonRelationGraph/blob/master/image/rel_graph2.png)]

3,人物关系数据库规模

项目数量
人物11024
关系对35995
关系类型1144

4,人物关系60%

关系类型频次频率累加频率
搭档46920.13034781642404710.1303478164240471
好友37710.104761640182242470.23510945660628957
队友17580.048838759862206910.2839482164684965
朋友16810.046699633292588060.3306478497610846
丈夫14310.039754417157461940.3704022669185465
妻子11980.033281475719524390.4036837426380709
师傅9860.027391932436937440.4310756750750083
儿子9720.0270030003333703760.4580786754083787
母亲9220.025613957106345150.4836926325147239
同学6980.019391043449272140.5030836759639961
弟弟6780.018835426158462050.5219191021224581
女儿6090.016918546505167240.5388376486276253
前女友5940.0165018335370596750.555339482164685
哥哥5800.016112901433492610.5714523835981776
合作5730.015918435381709080.5873708189798867
前男友5730.015918435381709080.6032892543615959

回标语料构建

目录地址:EventMonitor
运行方式:cd EventMonitor , scrapy crawl eventspider
回标语料举例:

  <霍英东, 霍震宇, 三子>	据此间媒体11日报道,<e1>霍英东</e1>长房三子<e2>霍震宇</e2>再度入禀法院,要求法官颁令兄长霍震霆交出记录<e1>霍英东</e1>所有资产及财务资料的记事本1.0<朴宝英, 金秀贤, 绯闻>	【组图】最爱人妻全智贤“初恋”秀智一再插足 <e1>朴宝英</e1>韩佳人T-ara恩静已成往事 <e2>金秀贤</e2>绯闻女友大盘点1.0<辰亦儒, 炎亚纶, 飞轮海组合>	飞轮海曾是火遍亚洲的偶像组合,飞轮海四名成员吴尊、汪东城、<e1>辰亦儒</e1>和<e2>炎亚纶</e2>四人也曾是不少人心目中的偶像,象征着我们的一代人的青春1.0<唐贝欣, 唐贝诗, 姐姐>	<e1>唐贝欣</e1>在伦敦大学毕业姐姐<e2>唐贝诗</e2>当然捧场1.0<刘琳, 刘孜, 同学>	<e2>刘孜</e2>是徐静蕾、<e1>刘琳</e1>的同学,最初是主持综艺节目,后投入影视剧的拍摄1.0<高晓松, 沈欢, 第一任妻子>	<e1>高晓松</e1>老婆<e2>沈欢</e2>相识过程:关于<e1>高晓松</e1>和第一任妻子<e2>沈欢</e2>的相识,颇具戏剧性1.0<高崚, 张军, 搭档>	<e1>高崚</e1>是国羽历史上的又一位女子兼项英雄,2000年8月,<e1>高崚</e1>搭档<e2>张军</e2>参加悉尼奥运会羽毛球混双比赛中爆冷为中国队夺得了奥运会历史上第一枚混双金牌1.0<李行亮, 黄雅莉, 好友>	陈俊彤自出道以来收获了不少圈内好友,<e1>李行亮</e1>、<e2>黄雅莉</e2>等也纷纷为陈俊彤新专辑的推出送上了祝福,他们对于音乐同样的执着和热爱令友谊长存,也令现场火速升温1.0<谢坤达, 黄鸿升, 好友>	修杰楷和好友<e2>黄鸿升</e2>、<e1>谢坤达</e1>2017年上《小燕有约》,在小燕姐的追问下侃侃而谈,回忆两人相恋,感性说:“我一直说静雯比我勇敢,她其实要付出的事情,是比我更多1.0<张君秋, 王婉华, 弟子>	演出结束后,董雪平、万晓慧拜京剧名家<e1>张君秋</e1>先生弟子<e2>王婉华</e2>、薛亚萍为师1.0<霍英东, 霍启山, 孙子>	<e2>霍启山</e2>,1983年5月生,广州人,是<e1>霍英东</e1>的孙子,父亲霍震霆为<e1>霍英东</e1>长子,母亲是港姐冠军朱玲玲,哥哥是霍启刚,弟弟是霍启仁1.0<苗侨伟, 苗彤, 女儿>	4.<e1>苗侨伟</e1>女儿<e2>苗彤</e2>1.0<万方, 曹禺, 父亲>	知名作家、<e2>曹禺</e2>三女儿<e1>万方</e1>在会后接受专访时表示,自己曾因为父亲在话剧方面的成就而感到压力,直到五十岁才写出第一部话剧作品1.0<姜文, 姜一郎, 女儿>	近日,<e1>姜文</e1>女儿<e2>姜一郎</e2>和外国朋友的合影在网络曝光,合影中<e2>姜一郎</e2>长发红唇,很有大腕风范1.0<陈建斌, 曹卫宇, 同学>	<e2>曹卫宇</e2>在剧中饰演吴昆才,和大学同学也是多年好兄弟的<e1>陈建斌</e1>有大量对手戏,两人在片场配合十分默契,<e2>曹卫宇</e2>更是大呼和兄弟演戏很过瘾1.0<曹敏莉, 曹蕙兰, 妹妹>	<e1>曹敏莉</e1>的妹妹<e2>曹蕙兰</e2>(前名曹敏宝)通过电话访问,激赞未来姐夫爱屋及乌,问她姐姐是否有喜,<e2>曹蕙兰</e2>说:“一定不是,反而大姐姐七月就生了1.0<付笛声, 付豪, 儿子>	1992年,任静和<e1>付笛声</e1>的儿子<e2>付豪</e2>出生了,让这个家庭更添了许多的欢乐1.0<王洪礼, 王亮, 儿子>	而<e1>王洪礼</e1>的儿子<e2>王亮</e2>也从事了足球职业,并且取得了不错的成绩1.0<韩庚, 银赫, sj成员>	出道当时的成员有利特、希澈、<e1>韩庚</e1>、艺声、强仁、神童、晟敏、<e2>银赫</e2>、东海、始源、厉旭和起范1.0<刘少奇, 刘允斌, 儿子>	1955年,在俄罗斯已经扎根立足的<e2>刘允斌</e2>接到了父亲的来信,<e1>刘少奇</e1>希望儿子能回到祖国,加入到新中国第1.0<丁俊晖, 蔡剑忠, 恩师>	他拥有出众的台球能力,而且很懂事,性格比较开朗,深得教练喜爱,<e1>丁俊晖</e1>昔日恩师<e2>蔡剑忠</e2>[微博]就曾公开表示,“如果袁思俊发展好,未来极有可能追上甚至超越<e1>丁俊晖</e1>的成就1.0<郁可唯, 黄英, 同是快女>	搜狐娱乐讯“快女”三强正式出炉!与传闻相符,最后一位离开的选手在同是成都赛区的<e2>黄英</e2>和<e1>郁可唯</e1>之间进行抉择,唱功备受肯定的<e1>郁可唯</e1>最终止步三强,成为今年“快女”第四名1.0<王皓, 闫博雅, 妻子>	腾讯体育9月29日讯近日,乒乓名将<e1>王皓</e1>在综艺节目中因与妻子<e2>闫博雅</e2>意见不合而愤然离场,这件事引起不小的轰动1.0<蔡康永, 刘坤龙, 同志男友>	<e1>蔡康永</e1>泣诉心酸路感动金星 <e1>蔡康永</e1>男友<e2>刘坤龙</e2>个人资料曝光(图)1.0<张晨, 卢卫中, 教练>	多年来,江苏队先后为国家队培养和输送了袁伟民、邹志华、邸安和、曹平、薛永业、张友生、<e2>卢卫中</e2>、陆飞、张晓东、施海荣、陈平、<e1>张晨</e1>等一大批优秀国手和教练,为我国排球事业做出卓越的贡献1.0<叶莉, 苗立杰, 好友>	陈楠与<e2>苗立杰</e2>均为姚夫人<e1>叶莉</e1>在女篮国家队中的好友,因此她们与姚明夫妇的关系极佳1.0<于震, 辛月, 妻子>	演员<e1>于震</e1>的妻子<e2>辛月</e2>貌美如花【图】1.0<马唯中, 周美青, 母亲>	马英九夫人<e2>周美青</e2>几次出境,据了解,<e1>马唯中</e1>趁同行机会,要蔡沛然向她母亲请安1.0<康希, 何耀珊, 妻子>	新加坡<e1>康希</e1>等牧者失信案二审 其妻子<e2>何耀珊</e2>被指募资1.0<卢燕, 李桂芬, 母亲>	<e1>卢燕</e1>的母亲是京剧名伶<e2>李桂芬</e2>,曾拜梅兰芳为义父,而京剧大师梅兰芳正是第一位将京剧介绍到海外的文化使者,并使京剧跻身于世界戏剧之林1.0<李健, 沈梦辰, 经纪人>	记者了解到包括<e2>沈梦辰</e2>在内的《歌手3》(在线观看)芒果经纪人也将加盟《好好学吧》,至于<e2>沈梦辰</e2>会否带着清华哥<e1>李健</e1>一起上节目,备受期待1.0<林志玲, 吴慈美, 母亲>	<e1>林志玲</e1>母亲<e2>吴慈美</e2>表示,“她每年都要缴很多税款,应该不会(漏税)吧1.0<钱三强, 钱民协, 女儿>	<e1>钱三强</e1>女儿<e2>钱民协</e2>:三钱中两钱曾是邻居1.0<杨元龙, 杨敏德, 女儿>	1978年由<e1>杨元龙</e1>创立的香港溢达集团,早在20年前就交班到女儿<e2>杨敏德</e2>的手中1.0

我的公众号:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480399.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2019 最新阿里中间件Java 4轮面试题!60万年薪起步~

Java中间件一面 1.技术一面考察范围&#xff1a; 重点问了Java线程锁&#xff1a;synchronized 和ReentrantLock相关的底层实现 线程池的底层实现以及常见的参数 数据结构基本都问了一遍&#xff1a;链表、队列等 Java内存模型&#xff1a;常问的JVM分代模型&#xff0c;以…

0011【冥想】87天冥想感悟汇总

0011【冥想】87天冥想感悟汇总 2018.1.6 Day1图片发自简书App1.7 Day2图片发自简书App❤️1.8冥想Day3❤️听了谷老师的分享&#xff0c;挺受益的。当我们的心越来越柔软&#xff0c;身体也会越来越柔软&#xff0c;所谓相由心生&#xff0c;冥想的时候&#xff0c;身体也会听从…

这个自然语言处理“工具”,玩得停不下来

今天推荐一个有趣的自然语言处理公众号「AINLP」&#xff0c;关注后玩得根本停不下来&#xff01;AINLP的维护者是我爱自然语言处理&#xff08;52nlp&#xff09;博主&#xff0c;他之前在腾讯从事NLP相关的研发工作&#xff0c;目前在一家创业公司带技术团队。AINLP公众号的定…

观点 | 抛开炒作看知识图谱,为什么现在才爆发?

本文转载自公众号&#xff1a;AI前线。 作者 | George Anadiotis 译者 | 无明 导读&#xff1a;知识图谱究竟是什么&#xff0c;都有哪些围绕它们的炒作&#xff1f;如果你想要像 Airbnb、亚马逊…

算法--排序--寻找数组内第K大的元素

此题目&#xff0c;需要用到快速排序里的划分数组操作&#xff1a; 快排参考&#xff1a;https://blog.csdn.net/qq_21201267/article/details/81516569#t2 先选取一个合适的哨兵&#xff08;三数取中法&#xff09;将数组分成三部分【小于哨兵的】【哨兵】【大于等于哨兵的】…

淘宝网Java五面:现场面试49题含答案!

淘宝一面: 面试介绍 1&#xff09;自我介绍&#xff1f; 2&#xff09;项目介绍&#xff1f; 3&#xff09;遇到的最大困难是什么&#xff1f;怎么解决的&#xff1f; 4&#xff09;你觉得你能怎么优化这个项目&#xff1f; 面试题目 1&#xff09;讲一下JVM 2&#xff…

告别自注意力,谷歌为Transformer打造新内核Synthesizer

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者&#xff1a;舒意恒&#xff08;南京大学硕士生&#xff0c;知识图谱方向&#xff09;今天给大家介绍一篇来自Google的最新论文《SYNTHESIZER: Rethinking Self-Attention in Transformer Models》[4]&#xff0c;该论文重新探索了T…

50万抽象知识图谱项目(实体抽象、性状抽象与动作抽象)

AbstractKnowledgeGraph AbstractKnowledgeGraph, a systematic knowledge graph that concentrate on abstract thing including abstract entity and action. 抽象知识图谱&#xff0c;目前规模50万&#xff0c;支持名词性实体、状态性描述、事件性动作进行抽象。目标于抽象…

算法--排序--大小写字母数字分离(桶排序思想)

题目&#xff1a; 对D&#xff0c;a&#xff0c;F&#xff0c;B&#xff0c;c&#xff0c;A&#xff0c;z这个字符串进行排序&#xff0c;要求将其中所有小写字母都排在大写字母的前面&#xff0c;但小写字母内部和大写字母内部不要求有序。比如经过排序之后为a&#xff0c;c&a…

2019 最新蚂蚁花呗Java三面题目:红黑树+并发容器+CAS+Solr+分布式等

蚂蚁金服专场 涵盖了蚂蚁金服从Java工程师到技术专家面试题目 支付宝高级Java三面题目&#xff1a;线程锁事务雪崩Docker等 蚂蚁花呗团队面试题&#xff1a;LinkedHashMapSpringCloud线程锁分布式 蚂蚁金服高级Java面试题目 支付宝Java开发四面:NgnixMQ队列集群并发抢购 蚂…

论文浅尝 | 实体图的预览表格生成

链接&#xff1a;ranger.uta.edu/~cli/pubs/2016/tabview-sigmod16-yan.pdf动机对于结构化数据和关系数据&#xff0c;通常使用Schema图为数据库的使用者提供基本信息。因此&#xff0c;作者提出了生成预览表格&#xff08;preview table&#xff09;的方法&#xff0c;为实体图…

万能的BERT连文本纠错也不放过

一只小狐狸带你解锁炼丹术&NLP秘籍作者&#xff1a;孙树兵学校&#xff1a;河北科技大学方向&#xff1a;QA/NLU/信息抽取编辑&#xff1a;小轶背景文本纠错&#xff08;Spelling Error Correction&#xff09;技术常用于文本的预处理阶段。在搜索引擎、输入法和 OCR 中有着…

POJ 1664 苹果放盘子(递归)

题目链接&#xff1a;http://poj.org/problem?id1664 m个相同的苹果放在n个相同的盘子里&#xff0c;有多少种不一样的方法。 例如&#xff0c;3个苹果放在4个盘子里有&#xff08;3&#xff0c;0&#xff0c;0&#xff0c;0&#xff09;&#xff08;1&#xff0c;1&#xf…

蚂蚁金服4轮面经(Java研发):G1收集器+连接池+分布式架构

一面 线程池有哪些参数&#xff1f;分别有什么用&#xff1f;如果任务数超过的核心线程数&#xff0c;会发生什么&#xff1f;阻塞队列大小是多少&#xff1f; 数据库连接池介绍下&#xff0c;底层实现说下 hashset底层实现&#xff0c;hashmap的put操作过程 说说HaspMap底层…

算法--二分查找--求平方根(循环法/递归法)

二分查找&#xff1a; 数据需要是顺序表&#xff08;数组&#xff09;数据必须有序可以一次排序&#xff0c;多次查找&#xff1b;如果数据频繁插入&#xff0c;删除操作&#xff0c;就必须保证每次操作后有序&#xff0c;或者查找前继续排序&#xff0c;这样成本高&#xff0…

论文浅尝 | 在生成式多跳机器阅读任务中引入外部常识知识

Commonsense for Generative Multi-Hop Question Answering Tasks链接&#xff1a; https://arxiv.org/abs/1809.06309背景机器阅读任务按照答案类型的不同&#xff0c;可以大致分为:(1) 分类问题: 从所有候选实体选择一个(2) answer span: 答案是输入文本的一个片段(3) …

Overleaf v2 评测

原文链接&#xff1a;https://www.jianshu.com/p/1d73d4b9e880 Overleaf v2 评测 去年&#xff0c;两个著名的Latex在线编辑器Overleaf和Sharelatex合并了&#xff0c;强强联手&#xff0c;让我们对他们合并之后的新产品充满了期待。最近&#xff0c;他们的新产品发布了&#x…

蚂蚁中间件团队Java面试题:Netty+Redis+Kafka+MongoDB+分布式

蚂蚁中间件一面&#xff1a; 自我介绍 JVM垃圾回收算法和垃圾回收器有哪些&#xff0c;最新的JDK采用什么算法。 新生代和老年代的回收机制。 讲一下ArrayList和linkedlist的区别&#xff0c;ArrayList与HashMap的扩容方式。 Concurrenthashmap1.8后的改动。 Java中的多线…

面试必备!卖萌屋算法工程师思维导图—统计机器学习篇

卖萌屋的妹子们&#xff08;划掉&#xff09;作者团整理的算法工程师思维导图&#xff0c;求职/自我提升/查漏补缺神器。该手册一共分为数据结构与算法、数学基础、统计机器学习和深度学习四个部分。下面是第二部分统计机器学习的内容~公众号后台回复【思维导图】获取完整手册&…

【重磅】全行业事理图谱V3.0正式发布:基于实证的由因求果、由果溯因,因果路径发现

我们一直在事理图谱的探索和应用路上不断前行。。。 【中科院软件所】数据地平线的金融事理图谱Demo已经和大家见面有一段时间了(Demo地址&#xff1a;http://eg.zhiwenben.com/)&#xff0c;这段时间我们收到了很多用户的建议反馈和合作邀约&#xff0c;大家对产品的认可和喜…