中文复合(条件事件、因果事件、顺承事件、反转事件)事理图谱构建项目

ComplexEventExtraction

chinese compound event extraction,中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。
项目地址:https://github.com/liuhuanyong/ComplexEventExtraction

关于项目

目前,知识图谱在学术界如火如荼地进行,但受限于知识图谱各个环节中的性能问题,还尚未能够在工业界大规模运用。而与知识图谱中以实体为知识节点,实体关系为实体关系边对知识进行组织不同,事件图谱,又称事理图谱,在目前也是很火的一个研究方向。就事理图谱而言,其从技术实现难度上不亚于知识图谱。
本人目前在事件图谱上的实验工作有:
顺承事件图谱(https://github.com/liuhuanyong/SequentialEventExtration)
因果事件图谱(https://github.com/liuhuanyong/CausalityEventExtraction)
目前,想到其实中文的事件在显式上的表达上遵循的是中文的复句表现形式。因此,打算对阶段性的工作进行整理,进一步形成中文复合事件抽取项目(https://github.com/liuhuanyong/ComplexEventExtraction)
接下来,将自己对事理图谱工作的一些理解整理出来,对事件图谱的类型、事件表示的相关方面进行归纳 。

1、事件图谱(事理图谱)的类型

事件含义形式化事件应用图谱场景举例
因果事件某一事件导致某一事件发生A导致B事件预警因果溯源 由因求果<地震,房屋倒塌>
条件事件某事件条件下另一事件发生如果A那么B事件预警时机判定<限制放宽,立即增产>
反转事件某事件与另一事件形成对立虽然A但是B预防不测反面教材<起步晚,发展快>
顺承事件某事件紧接着另一事件发生A接着B事件演化未来意图识别<去旅游,买火车票>

2、事件的表示

以因果事件为例:
已知句子:这几天非洲闹猪瘟,导致国内猪肉涨价

表示形式含义举例优点缺点
短句以中文标点符号为分割边界形成的短句这几天非洲闹猪瘟&国内猪肉涨价方便、最原始信息噪声多,不易融合
词序列对短句进行分词、词性标注、停用词形成的词序列非洲闹猪瘟&国内猪肉涨价语义丰富、较短句形式短停用规则不易控制
短语依存句法分析/语义角色标注,形成主谓短语、动宾短语、主谓宾短语非洲闹猪瘟&猪肉涨价语义凝固简洁受限于依存、语义角色性能

关于项目结构

本项目列举了汉语句子表顺承、条件、并列、转折的关联词,详见complex_sentence.py,例如:

'''转折事件'''
def pattern_but(self):wds = [[['与其'], ['不如'],'but'],[['虽然','尽管','虽'],['但也','但还','但却','但'],'but'],[['虽然','尽管','虽'],[ '但','但是也','但是还','但是却',],'but'],[['不是'],['而是'],'but'],[['即使','就算是'],['也','还'],'but'],[['即便'],['也','还'],'but'],[['虽然','即使'],['但是','可是','然而','仍然','还是','也', '但'],'but'],[['虽然','尽管','固然'],['也','还','却'],'but'],[['与其','宁可'],['决不','也不','也要'],'but'],[['与其','宁肯'],['决不','也要','也不'],'but'],[['与其','宁愿'],['也不','决不','也要'],'but'],[['虽然','尽管','固然'],['也','还','却'],'but'],[['不管','不论','无论','即使'],['都', '也', '总', '始终', '一直'],'but'],[['虽'],['可是','倒','但','可','却','还是','但是'],'but'],[['虽然','纵然','即使'],['倒','还是','但是','但','可是','可','却'],'but'],[['虽说'],['还是','但','但是','可是','可','却'],'but'],[['无论'],['都','也','还','仍然','总','始终','一直'],'but'],[['与其'],['宁可','不如','宁肯','宁愿'],'but']]

实验结果

本项目基于1000W资讯进行实验,共得到古复合中文事件模式237条,top10的模式结果为:

    模式         频次but_虽然_但	1484690but_尽管_但	1006669condition_如果_就	763451more_或_或	716354more_也_还	675549condition_如果_那么	494417more_不仅_也	483610condition_只有_才	432495more_不仅_还	429681condition_无论_都	399225

应用结果

1、事件举例

事件类型事件1事件2
反转事件不是 太多 而是 太少虽然 小幅提涨 但是 成交不多
反转事件不是 在消费 而是 在社交虽然 幅度不算大 但是 形态收好
反转事件不是 多了 而是 少了虽然 缓慢 但是 步伐坚定
反转事件不是 目的 而是 手段虽然 觉得有点坑 但是 毫无办法
反转事件不是 太多 而是 太少虽然 速缓 但是 质更优
反转事件不是 封闭的 而是 开放包容的虽然 起步稍晚 但是 热度不减
反转事件不是 一个结果 而是 一种逻辑虽然 压力比较大 但是 努力过
反转事件不是 周期性的 而是 结构性的虽然 没有功劳 但是 我也有苦劳
条件事件一旦 时机成熟 就 坚决推行如果 数据疲软 那么 将打压瑞郎
条件事件一旦 触发 就 不可逆了如果 美元涨 那么 黄金应该跌
条件事件一旦 形成 就 很难改变如果 惯性下跌 那么 请及时平仓
条件事件一旦 产生恐慌 就 会手忙脚乱如果 英国退欧 那么 金价将上涨
条件事件一旦 制定了目标 就 必须完成如果 比值上升 那么 进口将盈利
条件事件一旦 停产 就 失去了份额如果 是趋势 那么 就顺势操作
条件事件一旦 超调贬值 就 会失控如果 看跌 那么 赶紧跑

2、图谱展示

1、反转事件图谱
image

2、条件事件图谱
image

总结

1、本项目对事件图谱的类型、表现形式进行了归纳,并结合复合事件模式与语料进行了实验。
2、实验表明,反转事件,其实在某种程度上可以用来构造反义词词典,例如"不是A而是B"这种模式,可以得到很多反义的词或短语,这让我想到了我的一个反义词项目接口:(https://github.com/liuhuanyong/ChineseAntiword) ,我们可以用wordvector找相近词,可以靠这种方式收集反义词,对了,还可以加上情绪。
3、实验表明,汉语显示标记其实在中文文本当中还是用的很普遍的,我统计了以下,跑了1000W文本,有超过半数的文本中包含以上模式。因此,如果能够把显示事件图谱做好,感觉用处还是很多的。
4、本项目还有很多不足,比如模式上,比如对事件类型和事件表示的看法上,欢迎补充。
5、If any question about the project or me ,see https://liuhuanyong.github.io/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480629.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

对话系统的简单综述及应用智能客服

https://zhuanlan.zhihu.com/p/52899436 对话系统的简单综述及应用智能客服“天猫精灵&#xff0c;放歌”&#xff0c;”送你一首好听的歌《XXX》“&#xff0c;《XXX》音乐响起...相信有天猫精灵的用户对此场景都不陌生&#xff0c;或者语音操作其他智能音箱设备&#xff0c;比…

硬核推导Google AdaFactor:一个省显存的宝藏优化器

一只小狐狸带你解锁炼丹术&NLP秘籍作者&#xff1a;苏剑林&#xff08;来自追一科技&#xff0c;人称“苏神”&#xff09;前言自从GPT、BERT等预训练模型流行起来后&#xff0c;其中一个明显的趋势是模型越做越大&#xff0c;因为更大的模型配合更充分的预训练通常能更有效…

领域应用 | 用知识图谱玩唐诗,“唐诗别苑”附庸端午节的别样风雅!

本文转载自公众号&#xff1a;互联网教育国家工程实验室 。 端午节在每年的农历五月初五&#xff0c;又称端阳节、午日节、五月节等。端午节起源于中国&#xff0c;是古代百越一带崇拜龙图腾的部族举行图腾祭祀的节日。五月初五也是缅…

参加完阿里蚂蚁金服Java中间件6轮面试题!6点血泪总结~

蚂蚁金服一面&#xff1a;分布式架构 50分钟 1、个人介绍加项目介绍20分钟 2、微服务架构是什么&#xff0c;它的优缺点&#xff1f; 3、ACID CAP BASE理论 4、分布式一致性协议&#xff0c;二段、三段、TCC&#xff0c;优缺点 5、RPC过程 6、服务注册中心宕机了怎么办&am…

特定热点事件监控与分析项目

EventMonitor Event monitor based on online news corpus built by Baidu search enginee using event keyword for event storyline and analysis&#xff0c;基于给定事件关键词&#xff0c;采集事件资讯&#xff0c;对事件进行挖掘和分析。 项目地址&#xff1a;https://g…

深度好文:2018 年 NLP 应用和商业化调查报告

、 深度好文&#xff1a;2018 年 NLP 应用和商业化调查报告 Debra 阅读数&#xff1a;7650 2019 年 1 月 11 日近年来&#xff0c;自然语言处理技术已经取得了长足进步&#xff0c;成为应用范围最广泛&#xff0c;也是最为成熟的 AI 技术之一。但实际上&#xff0c;自然语言处理…

论文浅尝 | 通过多原型实体指称向量关联文本和实体

Cao Y,Huang L, Ji H, et al. Bridge Text and Knowledge by Learning Multi-Prototype Entity Mention Embedding[C]// Meeting of the Association for Computational Linguistics. 2017:1623-1633.导读&#xff1a;学术界近两年来十分关注如何将文本等非结构化数据和知识库等…

【面试必备】奉上最通俗易懂的XGBoost、LightGBM、BERT、XLNet原理解析

一只小狐狸带你解锁 炼丹术&NLP 秘籍在非深度学习的机器学习模型中&#xff0c;基于GBDT算法的XGBoost、LightGBM等有着非常优秀的性能&#xff0c;校招算法岗面试中“出镜率”非常高。这些经典的机器学习算法不仅是数据科学竞赛神器&#xff0c;在工业界中也被广泛地使用。…

2019手把手教你Java面试通关BAT

金三银四俗称跳槽黄金季&#xff0c;很多同学都想趁着这段时间拿高薪&#xff0c;去更牛逼的公司工作&#xff0c;认识更多大牛&#xff0c;提升自己的职场竞争力。 那怎样才能通过BAT面试官的考核&#xff1f;怎样成为一名Offer收割机&#xff1f; 之前讲过收割Offer有一个最…

特定领域因果事件图谱构建项目

CausalityEventExtraction self complement of templated based causality event extraction 基于因果关系知识库的因果事件图谱构建demo 项目地址&#xff1a;https://github.com/liuhuanyong/CausalityEventGraph 项目介绍 现实社会是个逻辑社会&#xff0c;大量的逻辑即逻…

斯坦福李纪为博士毕业论文:让机器像人一样交流

https://cloud.tencent.com/developer/article/1120019 选自GitHub机器之心编译自然语言处理&#xff08;NLP&#xff09;是人工智能领域下的一个庞大分支&#xff0c;其中面临很多机遇与挑战。斯坦福大学李纪为博士在他的毕业论文《Teaching Machines to Converse》中对 NLP 领…

陈华钧 | 知识图谱构建,将成为智能金融的突破口

本文转载自公众号&#xff1a;恒生技术之眼。“ 我们太容易被机器下棋这样的事所吸引&#xff0c;以至于现在谈到人工智能就基本都是在说机器学习和深度学习&#xff0c;而相对忽视了与人工智能相关的另外一个重要的方向&#xff1a;知识图谱。——陈华钧”尽管人工智能依靠机器…

万字长文梳理CTR点击预估模型发展过程与关系图谱

背景在推荐、搜索、广告等领域&#xff0c;CTR&#xff08;click-through rate&#xff09;预估是一项非常核心的技术&#xff0c;这里引用阿里妈妈资深算法专家朱小强大佬的一句话&#xff1a;“它&#xff08;CTR预估&#xff09;是镶嵌在互联网技术上的明珠”。本篇文章主要…

基于携程游记的出行领域顺承事件图谱项目

EvolutionaryEventGraph 项目地址&#xff1a;https://github.com/liuhuanyong/SequentialEventExtration Evolutionary Event Graph based on Travel note crawled from XieCheng&#xff0c;基于50W携程出行攻略的顺承事件抽取与事件图谱构建. 项目来源 目前,以谓词性短语…

5步教你成功求职进入BAT

有读者朋友希望我能写一部分关于BAT内部的文章&#xff0c;比如&#xff0c;怎么进入BAT&#xff0c;BAT内部的项目的流程&#xff0c;有挑战性的项目实践&#xff0c;大概是怎么样的&#xff1f; 我希望用这篇文章开启整个进入BAT系列篇&#xff0c;让大家更好的了解BAT内部的…

机器阅读理解任务综述

http://forum.yige.ai/thread/27 2016年 <div class"markdown-body" id"emojify">作者&#xff1a;林鸿宇 韩先培 简介 自然语言处理的长期目标是让计算机能够阅读、处理文本&#xff0c;并且理解文本的内在含义。理解&#xff0c;意味着计算机在接…

论文浅尝 | 基于知识图谱子图匹配以回答自然语言问题

Citation: Hu,S., Zou, L., Yu, J. X., Wang, H., & Zhao, D. (2018). Answering natural language questions by subgraph matching over knowledge graphs. IEEE Transactions on Knowledge & Data Engineering, PP(99), 1-1.动机对于基于知识图谱的事实性问答&#…

新闻文本内容知识图谱表示项目

TextGrapher 项目地址&#xff1a;https://github.com/liuhuanyong/TextGrapher Text Content Grapher based on keyinfo extraction by NLP method。输入一篇文档&#xff0c;将文档进行关键信息提取&#xff0c;进行结构化&#xff0c;并最终组织成图谱组织形式&#xff0c;…

BAT Java面试完整汇总:面试准备(心态+简历)+面试题目+6条面试经验

今天分享的BAT面试完整内容主要包含&#xff1a; 面试前的心态准备&#xff08;3点建议&#xff09; 技术硬实力包含的范围&#xff08;50题目&#xff09; 个人简历突出和优化&#xff08;3点优化步骤&#xff09; 个人软实力的提升&#xff08;6点提升维度&#xff09; B…

算法工程师的效率神器——vim篇

一只小狐狸带你解锁炼丹术&NLP秘籍我相信&#xff0c;有很多小伙伴在看到这篇文章时就有了很多问号&#xff1a;用vim&#xff1f;疯了吧&#xff1f;sublime不香吗&#xff1f;pycharm不香吗&#xff1f;jupyter notebook不香吗&#xff1f;我这可是最新版的windows 100操…