因果关系固定搭配知识库项目CausalCollocation

CausalKnowledgeBase

CausalKnowledgeBase, causal knowledge base including causal pairs extracted from web text using the methods like PMI, Collocation。基于网络文本的因果知识库项目,采用PMI,搭配抽取等方法,形成因果对频繁集。
项目地址:https://github.com/liuhuanyong/CausalCollocation

项目介绍

因果关系是语言逻辑关系中重要的组成部分,通过挖掘因果关系,可以在多个方向上产生作用,如对词作embedding,基于因果关系的预测等。目前,学术界中关于因果关系的抽取主要分成实体因果关系抽取和事件因果关系抽取,两者分别以实体和事件作为因果单元,实体大多为名词,事件大多为单个动词,这方面的工作可以参考semeval以及causalbank的相关工作。
因果单元的确定是因果关系抽取中的根本问题,不同的因果单元所能应用的场景会有着较大的差异。名词性的实体单元事件性太差,单一动词性单元语义过于抽象,在实际应用中会带来很多的噪声。
在这方面,我主要完成了以下工作:
1)CausalityEventExtraction项目, https://github.com/liuhuanyong/CausalityEventExtraction ,该项目从语言学的角度,给出了因果关系模式集,基于该模式集,可以初步抽取出因果描述单元,可以作为因果事件抽取的前期工作。
2)EventPredictBasedOnEG项目, https://github.com/liuhuanyong/EventPredictBasedOnEG ,该项目从建成因果事理图谱的基础上,给出了一个因果查询api,用于未来事件预测的工作,可作为一个应用环节。
然而,以上两个项目都是从宽泛意义上的事件上来做的,在粒度上介于词语句子之间,泛化能力较差,而且在事件的概率转移上,一直无法得到很好的解决。我在想,是否能够讲搭配抽取的方法引入到因果知识库的构建当中,因为在之前,看到一个在英文因果对抽取的工作(http://www.cs.sjtu.edu.cn/~kzhu/papers/kzhu-copa.pdf), 该工作从Bing网页快照中提取的可能的因果关系对,形成7千万的因果关系对,每一行有三个元素,分别为原因,结果和频率。从下载数据来看,数据很乱,暂时想不出来有什么工业用处。因此,我想到因果频繁项集的概念,能否根据因果对的共现信息,通过计算因果对之间的搭配,从而形成以事件性词语(名词、动词、形容词)的因果搭配知识库。

项目的技术路线

1、通过文本采集的方法,采集大规模文本数据集
2、通过执行CausalityEventExtraction项目项目,得到大规模的因果描述句
3、基于CausalityEventExtraction的结果,分别对原因描述部分和结果描述部分进行分词,词性标注,命名实体识别等预处理操作
4、对原因描述部分和结果描述部分进行词性过滤处理,仅保留分词结果中的名词、动词、形容词,形成原因词列表和结果词列表
5、以原因词列表为中心,统计该词语结果词列表中的词的pmi值,pmi值的计算公式:log(p(x,y)/(p(x)*p(y)))
6、按照pmi值高低,对每个原因词的因果搭配信息写入文件,设置topn=200,只保留每个词的前200个频繁结果词。

项目脚本

结果文件为:data/causal_collocation.json

项目运行结果

1、搭配文件:pmi_word有3项内容构成,分别为结果词,结果词性以及结果词语原因词之间的pmi值,用于衡量两者之间关联强度。

{ "_id" : ObjectId("5cbd878b831b975b8da3d6cc"), 
"word" : "自杀", 
"word_tag" : "v",
"pmi_words" : [
[ "留医", "v", 21.868029795027585 ], 
[ "苦闷", "a", 19.546101700140223 ], 
[ "干什么", "v", 19.28306729430643 ],
[ "杨进", "v", 19.28306729430643 ], 
[ "掀开", "v", 19.259220552352062 ],
[ "抒发", "v", 18.546101700140223 ], 
[ "口诛笔伐", "i", 18.365529454498404 ],
[ "同情", "v", 18.28306729430643 ], 
[ "抢救", "v", 18.115467345810362 ], 
[ "思索", "v", 17.898403444071104 ], 
[ "减肥", "v", 17.67163258222408 ], 
[ "想起", "v", 17.452992295748743 ], 
[ "赞扬", "v", 17.28306729430643 ]  }

2、因果搭配举例:

原因词结果词
熬夜_v昏倒_v;交感_v;干涩_a;脱发_v;提神_v;上火_v;超负荷_b;泌尿_v;发烧_v;有心_v;猝死_v;发作_v;睡眠_v;慢性_b;不适_a;脱落_v;诱发_v;急性_b;点燃_v;困扰_v;比赛_v;突发_v;不好_a;感染_v;预防_v;调试_v;造成_v;消耗_v;到位_v;赚钱_v;容易_a;推广_v;健康_a;及时_a;准备_v;处于_v;成为_v;严重_a;工作_v;可以_v;达到_v;出现_v;减少_v;影响_v;存在_v
出轨_v失恋_v;召唤_v;停播_v;原谅_v;出轨_v;笼络_v;非常_b;起火_v;不知_v;叫停_v;厉害_a;紧急_a;攻击_v;爆炸_v;受伤_v;比如_v;知道_v;造成_v;制定_v;影视_b;担心_v;生活_v;死亡_v;有利于_v;设计_v;一般_a;合作_v;选择_v;没有_v;维持_v;下降_v;反弹_v;面临_v;可以_v
恋爱_v叹老_v;谈婚_v;论嫁_v;求婚_v;恋爱_v;浪漫_a;打断_v;聊天_v;结婚_v;诱导_v;谈话_v;掌控_v;认真_a;拍摄_v;为由_v;感染_v;吸收_v;下去_v;上网_v;可谓_v;出来_v;担心_v;涌入_v;庞大_a;就是_v;下来_v;放松_v;赚钱_v;鼓励_v;采取_v;私募_v;影视_b;创业_v;失败_v;应该_v;所有_b;发生_v;开始_v;需要_v;获得_v;投资_v
挫败_v怒斥_v;迷惘_a;渺茫_a;无情_a;出击_v;煎熬_v;简易_a;源于_v;渴望_v;择机_v;自杀_v;阻碍_v;旅行_v;做好_v;付费_v;中小_b;兴起_v;感到_v;爆炸_v;紧急_a;巩固_v;挂牌_v;打破_v;获取_v;主动_a;垄断_v;并购_v;采取_v;成功_a;民营_b;面临_v;准备_v;开始_v;迅速_a;下行_v;亏损_v;调整_v;达到_v;提高_v
沉迷_v挂科_v;有的视_v;自闭_v;会考_v;斥骂_v;威逼_v;冷漠_a;劝退_v;利诱_v;惨败_v;找上门_v;及格_v;牵动_v;消解_v;沉迷_v;赌博_v;象征_v;疲劳_a;网游_v;批评_v;耽误_v;炒股_v;思考_v;虚拟_v;危险_a;学习_v;遭到_v;娱乐_v;联系_v;真实_a;面对_v;分享_v;大额_b;防止_v;教育_v;担忧_v;全面_a;缺乏_v;丧失_v;安全_a;炒作_v;贸易_v;转移_v;陷入_v;健康_a;巨大_a;连续_a;造成_v;保证_v;可能_v;损失_v;保持_v;带来_v;调整_v;亏损_v;出现_v;存在_v;持续_v;经营_v;下降_v
肥胖_a顺手作_v;返流_v;发胖_v;肥胖_a;补脑_v;摄取_v;疼痛_a;减肥_v;常见_a;沦为_v;慢性_b;临床_v;治疗_v;危害_v;发达国家_i;集聚_v;诊断_v;运动_v;迫切_a;蔓延_v;培养_v;现有_v;限制_v;改善_v;增多_v;一定_b;体现_v;研究_v;配套_v;容易_a;有利于_v;一般_a;健康_a;迅速_a;高于_v;带来_v;导致_v;达到_v;需要_v;管理_v;发生_v;减少_v;出现_v
赌博_v妻离子散_i;涉恶_v;反赌_v;金立_v;参赌_v;赌博_v;清查_v;失范_v;涉黑_v;沉迷_v;贱卖_v;自杀_v;贪污_v;抹黑_v;受贿_v;不能自拔_i;洗钱_v;快乐_a;散发_v;乃是_v;屹立_v;逃税_v;斩断_v;离婚_v;并入_v;好像_v;拖欠_v;不知不觉_i;外出_v;整治_v;企图_v;滋生_v;对赌_v;暴富_v;犯罪_v;侦查_v;不明_v;破灭_v;稀释_v;最高_a;发动_v;禁止_v;合伙_v;在于_v;流向_v;意味着_v;带有_v;削弱_v;混乱_a;失去_v;扶贫_v;破产_v;主动_a;证券化_v;必要_a;崛起_v;走向_v;遭到_v;涉及_v;断裂_v;遵循_v;来临_v;立案_v;缓解_v;疯狂_a;从事_v;连续_a;失败_v;开放_v;规避_v;损害_v;监测_v;充满_v;倾向_v;约定_v;想象_v;出来_v;合法_a;可能_v;加大_v;困难_a;享受_v;民事_b;明确_a;保障_v;萎缩_v;监管_v;下跌_v;陷入_v;签订_v;极大_a;期待_v;达到_v;严重_a;稳定_a;出现_v;可以_v;形成_v;获得_v;吸引_v
打架_v挑事_v;调皮_a;抢客_v;指向_v;同一个_b;罢工_v;头疼_a;误解_v;实属_v;热闹_a;扰乱_v;同样_b;批评_v;罕见_a;超预期_b;把握_v;合并_v;围绕_v;冲突_v;绝对_a;基本_a;矛盾_a;面对_v;争夺_v;剧烈_a;制定_v;国产_b;监管_v;担心_v;强烈_a;属于_v;控制_v;约定_v;损失_v;无法_v;存在_v;持续_v;出现_v
抢劫_v春假_v;闲逛_v;身故_v;抢劫_v;逮捕_v;作案_v;谋利_v;取现_v;诈骗_v;非正常_b;追究_v;死亡_v;还是_v;出去_v;知道_v;频繁_a;遭遇_v;缺乏_v;严重_a;不同_a;带来_v;造成_v;损失_v
枪击_v发誓_v;不幸_a;丧生_v;遇难_v;返回_v;恐慌_a;受伤_v;死亡_v;消退_v;伤亡_v;前往_v;损坏_v;犯罪_v;爆炸_v;参加_v;冲突_v;延误_v;修改_v;倾向_v;执行_v;凸显_v;彻底_a;担心_v;帮助_v;能否_v;受损_v;上升_v;取消_v;受到_v;重大_a;回落_v;进入_v;完成_v;明显_a
强奸_v刑拘_v;抢劫_v;命名_v;身亡_v;对待_v;撤销_v;尴尬_a;真正_b;频繁_a;遭遇_v;处罚_v;研发_v;受到_v
贪污_v违纪_v;毁谤_v;撤职_v;非同寻常_i;走后门_i;无助_a;调离_v;虾夷_v;降职_v;揭发_v;检控_v;公诉_v;亏空_v;无辜_a;违法_v;空穴来风_i;渎职_v;岌岌可危_i;受贿_v;露出_v;指控_v;舞弊_v;掏空_v;造成_v;犯罪_v;民办_b;反腐_v;举报_v;严厉_a;困难重重_i;抵抗_v;查询_v;腐败_a;巨额_b;挪用_v;代表_v;涉案_v;报道_v;撤销_v;叫停_v;筹措_v;倾斜_v;实践_v;垄断_v;低下_a;临时_b;混改_v;关键_a;思考_v;教育_v;普通_a;查封_v;愿意_v;库存_v;公共_b;自主_v;调查_v;中小_b;变更_v;解决_v;输送_v;流失_v;遭到_v;国有_v;并非_v;上市_v;要求_v;对外_v;购买_v;不及_v;获利_v;严重_a;处罚_v;积极_a;重视_v;亏损_v;负面_b;全面_a;建设_v;监管_v;改革_v;研发_v;构成_v;加大_v;工作_v;竞争_v;成为_v;减少_v;重大_a;影响_v;出现_v;一定_b;存在_v;下降_v
增持_v汇金_i;反跌_v;增次_v;定投式_b;寿持_v;续增_v;举牌股_v;持工_v;阿合计_v;五牛亥尊_i;停手_v;知晓其_v;如愿以偿_i;领薪_v;尽心_a;走好_v;安邦系_v;牵强_i;狂风暴雨_i;富立_v;监发_v;拔葱_v;张开_v;吃官司_v;凸匹_v;挤出_v;遭疑_v;居首_v;追货_v;高歌猛进_v;围剿_v;炒新_v;悬疑_v;免予_v;让位_v;形不成_v;初始投资_v;雄起_v;保发_v;黯然失色_i;谋取_v;保增_v;消停_v;染指_v;增持_v;征询_v;邀约_v;久违_v;在任_v;详式_b;迷信_v;匪夷所思_i;分布_v;狙击_v;吐槽_v;可想而知_i;更胜一筹_i;添砖加瓦_i;欧债_v;紧逼_v;跌动_v;跃居_v;易主_v;潜水_v;留任_v;改正_v;斥资_v;普涨_v;力保_v;纾解_v;抽资_v;嘲讽_v;稳定_v;捍卫_v;限定_v;议论_v;开山_v;等值_v;出于_v;坐实_v;更替_v;平息_v;托底_a;力挺_v;浮盈_v;好奇_a;自救_v;强平_v;首创_v;拟以_v;井喷_v;掩护_v;趋同_v;责令_v;顺延_v;实施_v;稳住_v;典型_a;热捧_v;濒临_v

总结

1、本项目从名词、动词、形容词作为事件单元出发,使用pmi和高频共现的方式,完成了因果频繁集的提取工作,形成频繁因果搭配知识库。
2、频繁因果搭配知识库能够用于关键词扩展,词向量表征wordembedding等应用。
3、频繁因果搭配知识库中原因词和结果词之间的pmi值是否可以充当因果关系的状态转移概率,这个问题值得我们考虑以及实验。
4、频繁因果搭配知识库还可以有多种提取和构建方式,后续有更多想法可以再进行实验。

如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,请联系我:
邮箱:lhy_in_blcu@126.com
csdn:https://blog.csdn.net/lhy2014
我的自然语言处理项目: https://liuhuanyong.github.io
刘焕勇,中国科学院软件研究所

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480418.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

超强干货!7个腾讯最常用的用户研究方法

超强干货!7个腾讯最常用的用户研究方法调查知识2017-09-19每天都有互联网产品上市,人们电脑上、手机上的应用在短期之内就可能增增减减换了很多波,最终留下的、那些最经典的产品,都是以好的体验设计取胜。这些产品或许看似很“简单…

算法--递归--汉诺塔问题

文章目录1. 问题分析2. 面试题1. 问题分析 游戏规则:一次只能挪一片;小的只能在大的上面;把所有的从A柱挪到C柱。 递推公式: 上部 n - 1 个 A 到 B;最底下 1 个 A 到 C ;上部 n - 1 个 B 到 C;…

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

来源: IJCAI2018链接: https://www.ijcai.org/proceedings/2018/0556.pdf动机近年来,随着多语言知识图谱嵌入(Multilingual KG embedding)的研究,实体的潜在语义表示以及跨语言知识推理等任务均取得一定成效,因此也推动了许多知识驱动的跨语言…

最新阿里聚划算Java 5轮面试题,涵盖GC收集器、多线程锁等

一面 详细的介绍JVM的内存模型结构 JVM最常用的参数配置讲讲 GC垃圾收集算法、GC垃圾收集器有哪些,以及新生代老生代 分别用什么算法 多线程的几种加锁方式详细介绍 实现线程安全的方式?ThreadLocal原理?线程池了解吗说说看?自…

2004-2019十六年热点事件库HistoryHotEventBase项目

HistoryHotEventBase historyhotevent projrct ,which concentrate on the dayily hot event covers the time range from 2004 to 2019, 16 years in total,从2004年至2019年共16年的每日热点事件项目,目标包括构建起从2004年至今共16年的历时热点标题数…

OSI七层模型详解-开放系统互联参考模型详解

原文链接:https://blog.csdn.net/yaopeng_2005/article/details/7064869 OSI 七层模型通过七个层次化的结构模型使不同的系统不同的网络之间实现可靠的通讯,因此其最主要的功能就是帮助不同类型的主机实现数据传输 。 完成中继功能的节点通常称为中继系…

最新天猫Java3轮面试题目:虚拟机+并发锁+Sql防注入+Zookeeper

天猫一面 自我介绍、项目介绍 Spring拦截器、实现了哪些方法?底层原理 AOP如何配置,底层原理、2种动态代理,aop注解实现,xml定义切面 Bean的作用域,单例模式是否线程安全?恶汉模式是否线程安全&#xff…

NLP中的少样本困境问题探究

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者:JayLou娄杰(NLP算法工程师,信息抽取方向)前言在医疗、金融、法律等领域,高质量的标注数据十分稀缺、昂贵,我们通常面临少样本低资源问题。本文从「文本增强」和…

军事武器知识图谱构建与自动问答项目QAonMilitaryKG

QAonMilitaryKG QAonMilitaryKG,QaSystem based on military knowledge graph that stores in mongodb which is different from the previous one, 基于mongodb存储的军事领域知识图谱问答项目,包括飞行器、太空装备等8大类,100余小类&#…

python--从入门到实践--chapter 9 类

类的定义格式: class Name(Father_class):def __init__(self, para, ...):self.para xdef __init__(self, para, ...):super().__init__(para, ...) #调用父类的构造函数class Car():def __init__(self,make,model,year): #构造函数self.make makeself.model mo…

连载 | 知识图谱发展报告 2018 -- 前言

OpenKG 将开始连载《知识图谱发展报告(2018)》,希望该连载能够让更多的人深入了解知识图谱。欢迎各位读者留言讨论。1. 知识图谱的研究目标与意义 知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系,将互…

网址(url),域名,ip地址,dns,hosts之间的关系

网址(url),域名,ip地址,dns,hosts之间的关系 什么是ip? 我们知道,在Internet上有千百万台主机,为了区分这些主机,人们给每台主机都分配了一个专门的地址&…

事理图谱概念辨析及其与风险标签分类结合的应用探讨

以事件为描述核心,以揭示事件之间的演化逻辑关系的事理图谱自提出后,引起了工业界的极大兴趣,在积极探索事理图谱本质、事理图谱构建技术细节的同时,如何找到技术与应用场景之间的结合成为目前广泛讨论的问题。我们团队持续对以上…

一篇文章带你熟悉 TCP/IP 协议(网络协议篇二)

涤生_Woo2017年11月11日阅读 15544关注一篇文章带你熟悉 TCP/IP 协议(网络协议篇二)同样的,本文篇幅也比较长,先来一张思维导图,带大家过一遍。一图看完本文一、 计算机网络体系结构分层计算机网络体系结构分层计算机网…

PyTorch数据Pipeline标准化代码模板

前言PyTorch作为一款流行深度学习框架其热度大有超越TensorFlow的感觉。根据此前的统计,目前TensorFlow虽然仍然占据着工业界,但PyTorch在视觉和NLP领域的顶级会议上已呈一统之势。这篇文章笔者将和大家聚焦于PyTorch的自定义数据读取pipeline模板和相关…

2019 最全支付宝高级Java现场面试37题

支付宝现场三面面试题目,文末有福利:阿里经典面试88题目答案 01 支付宝一面 介绍一下自己。 项目参与的核心设计有哪些 ArrayList和LinkedList底层 HashMap及线程安全的ConcurrentHashMap,以及各自优劣势 Java如何实现线程安全 Synchronized和Lock…

腾讯互娱刘伟 | 知识图谱在运维中的应用

本文转载自公众号:InfoQ。随着业务监控建设不断完善,海量业务故障时产生成百上千条告警,如何智能定位故障根源、实时统计业务影响是现阶段运营面临的一个难题。Google 利用知识图谱优化了其搜索服务以来,知识图谱得到了迅速发展。…

python--从入门到实践--chapter 10 文件及错误

文件的读写: with open(filename, a, encodingutf-8) as file:with :后面不必写close文件 第二个参数:‘a’ 追加;‘w’ 写;‘r’ 读 encoding ‘utf-8’ 编码格式,中文的话一般写上 enter y while ent…

中文人物关系图谱构建与应用项目(人物关系抽取,关系抽取评测)

ChinesePersonRelationGraph ChinesePersonRelationGraph, person relationship extraction based on nlp methods.中文人物关系知识图谱项目,内容包括中文人物关系图谱构建,基于知识库的数据回标,基于远程监督与bootstrapping方法的人物关系抽取,基于知识图谱的知识问答等应用…

2019 最新阿里中间件Java 4轮面试题!60万年薪起步~

Java中间件一面 1.技术一面考察范围: 重点问了Java线程锁:synchronized 和ReentrantLock相关的底层实现 线程池的底层实现以及常见的参数 数据结构基本都问了一遍:链表、队列等 Java内存模型:常问的JVM分代模型,以…