基于携程游记的出行领域顺承事件图谱项目

EvolutionaryEventGraph

项目地址:https://github.com/liuhuanyong/SequentialEventExtration
Evolutionary Event Graph based on Travel note crawled from XieCheng,基于50W携程出行攻略的顺承事件抽取与事件图谱构建.

项目来源

目前,以谓词性短语作为事件表示的方法方兴未艾,针对特定领域,构建起特定领域的顺承事件图谱,可以支持事件推理,基于事件的意图识别与推荐等多项运用.
本项目将从出行领域展开进行实验.

项目构成

本项目由两个部分的组成,具体包括语料的获取以及基于语料的事件挖掘两个部分,具体项目目录包括:
news_spider:基于scrapy的游记采集脚本
event_graph:基于依存句法与顺承模式的顺承事件抽取脚
image:游记顺承事件图谱效果图

一 出行领域语料的获取

  1. 语料来源:携程出行攻略

  2. 时间范围:2018年7月14日之前

  3. 采集方式:使用scrapy编写爬虫脚本进行抓取

  4. 采集规模:共采集505767篇,量级50W

  5. 采集脚本目录:news_spider/travelspider

  6. 语料举例:

         107330 一路向南——第二篇相逢南通(自驾游) - 游记攻略【携程攻略】107331 彩云之南—云上的蜜月之旅 - 丽江游记攻略【携程攻略】107332 甘肃游记之玛曲郎木寺 - 碌曲游记攻略【携程攻略】107333 拍客白沙行 - 舟山游记攻略【携程攻略】107334 九华山-沐浴在佛恩下的XXX - 九华山游记攻略【携程攻略】107335 垦丁夏季活动 - 垦丁游记攻略【携程攻略】107336 行走在台湾(向隅版)---世外桃源之我们的家(九份民宿) - 九份游记攻略【携程攻略】107337 卫赛节马来西亚行 - 马六甲州游记攻略【携程攻略】107338 蓝天下的嘉峪关 - 嘉峪关游记攻略【携程攻略】107339 人生一定要登一次雪山---都日峰 - 四川游记攻略【携程攻略】107340 八月,青海湖不远 - 海北游记攻略【携程攻略】107341 #冬季北京# 帝都极冷天去首富的酒店避避寒 - 北京游记攻略【携程攻略】107342 圣地西藏 - 青海湖游记攻略【携程攻略】107343 孩子,妈妈想让你见识更多的繁华世界 - 深圳游记攻略【携程攻略】107344 顶级奢华,舍我其谁! - 澳门游记攻略【携程攻略】107345 旅行、不需要走远!美景就在身边 - 江门游记攻略【携程攻略】107346 安安静静,不言不语都是好风景 - 厦门游记攻略【携程攻略】107347 邂逅则天故里 行走美丽利州 体验师带你看中国女儿节 - 广元游记攻略【携程攻略】107348 台湾,可以这样玩--15日环岛自由行全记录 - 台北游记攻略【携程攻略】107349 让我记忆深刻的厦门--详细版 - 厦门游记攻略【携程攻略】107350 上海地鐵站 - 上海游记攻略【携程攻略】107351 逃离雾霾,带着“马拉多纳”去腾冲 - 腾冲游记攻略【携程攻略】107352 在我心上用力地开一 - 四川游记攻略【携程攻略】107353 冬季到鄱阳湖边的余干县看鸟,多张美图记录环湖游全过程 - 余干游记攻略【携程攻略】107354 2014.十一沈阳,本溪老边沟,枫叶大道,丹东,不走重复路,古迹,景色5日穷游 - 沈阳游记攻略【携程攻略】107355 库不齐老牛湾之户外行走 - 库布齐沙漠游记攻略【携程攻略】
    

二 基于出行语料的顺承事件图谱构建

1, 顺承事件的抽取

event_extract.py, 思想步骤如下:

  1. 输入游记文本
  2. 对游记进行长句切分
  3. 基于构造的顺承关系模板,进行顺承前后部分提取, 转入4)
  4. 对3)得到的部分进行短句处理,转入5)
  5. 对4)得到的短句进行谓词性短语提取
  6. 对5)得到的谓词性短语向上汇聚,得到一个长句的谓词性短语有序集合
  7. 对6)步骤得到的谓词性短语集合,以滑窗方式构造顺承关系事件对
  8. 对步骤7)得到的顺承事件对进行汇总,最终得到顺承事件库
  9. 对8)进行事件进行整合,去除过低频次的事件,构造标准顺承关系库

2, 顺承事件图谱的展示

10)使用VIS插件进行顺承关系图谱构建与展示, event_graph.py
11)由于VIS作为一个封装的JS库,因此生成的顺承图谱在项目中暂时设置到500,见travel_event_graph.html

三 顺承关系图谱效果

1) 总体图谱样式

以500个顺承事件, 进行顺承事件图谱展示,结果是一张事件网络,这是一个大的顺承关系图谱,由众多小子图谱构成
image

2) 去丽江子图谱

该子图谱围绕"去丽江旅游"这一出行事件为核心形成的事件群:
image

3) 飞机路线子图谱

该子图谱显示了选择飞机进行出行形成的事件序列
image

4) 火车路线子图谱

该子图谱显示了选择火车进行出行形成的事件序列
image

5) 订酒店事件图谱

该子图谱描述了一个"预定酒店不愉快事件",从预定到失望到总结,在这条顺承事件链表现出来
image

6) 做饭事件图谱

该子图谱表示了一个"做饭"场景下的顺承事件,感觉也很有意思
image

总结

  1. 该项目只是一个基于50W文章领域语料,运用简单提取方式形成的顺承关系图谱demo,还有很多不足
  2. 该项目目前是形成了事件节点为326781个, 顺承事件对为543580条,分别为30W和50W的图谱规模
  3. 对于谓词性短语进行事件表示是事件表示的一种方式,本方法只采用VOB关系进行提取,这种方式还有待改进
  4. 以3)得到的结果中,还存在大量噪声,这一方面准确率受依存句法的准确性限制,另一方面该依存关系可能还相对单一,不够准确
  5. 在构造顺承事件序列的方法,本项目采用的是长句为单位下的滑窗方式进行构造,这个方式还有待改进
  6. 基于目前形成的顺承关系图谱还有待于进一步挖掘,可以在此基础上完成更多有价值的信息挖掘

Question?

send mail to lhy_in_blcu@126.com
项目地址:https://github.com/liuhuanyong/SequentialEventExtration
If any question about the project or me ,see https://liuhuanyong.github.io/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480615.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

5步教你成功求职进入BAT

有读者朋友希望我能写一部分关于BAT内部的文章,比如,怎么进入BAT,BAT内部的项目的流程,有挑战性的项目实践,大概是怎么样的? 我希望用这篇文章开启整个进入BAT系列篇,让大家更好的了解BAT内部的…

机器阅读理解任务综述

http://forum.yige.ai/thread/27 2016年 <div class"markdown-body" id"emojify">作者&#xff1a;林鸿宇 韩先培 简介 自然语言处理的长期目标是让计算机能够阅读、处理文本&#xff0c;并且理解文本的内在含义。理解&#xff0c;意味着计算机在接…

论文浅尝 | 基于知识图谱子图匹配以回答自然语言问题

Citation: Hu,S., Zou, L., Yu, J. X., Wang, H., & Zhao, D. (2018). Answering natural language questions by subgraph matching over knowledge graphs. IEEE Transactions on Knowledge & Data Engineering, PP(99), 1-1.动机对于基于知识图谱的事实性问答&#…

新闻文本内容知识图谱表示项目

TextGrapher 项目地址&#xff1a;https://github.com/liuhuanyong/TextGrapher Text Content Grapher based on keyinfo extraction by NLP method。输入一篇文档&#xff0c;将文档进行关键信息提取&#xff0c;进行结构化&#xff0c;并最终组织成图谱组织形式&#xff0c;…

BAT Java面试完整汇总:面试准备(心态+简历)+面试题目+6条面试经验

今天分享的BAT面试完整内容主要包含&#xff1a; 面试前的心态准备&#xff08;3点建议&#xff09; 技术硬实力包含的范围&#xff08;50题目&#xff09; 个人简历突出和优化&#xff08;3点优化步骤&#xff09; 个人软实力的提升&#xff08;6点提升维度&#xff09; B…

算法工程师的效率神器——vim篇

一只小狐狸带你解锁炼丹术&NLP秘籍我相信&#xff0c;有很多小伙伴在看到这篇文章时就有了很多问号&#xff1a;用vim&#xff1f;疯了吧&#xff1f;sublime不香吗&#xff1f;pycharm不香吗&#xff1f;jupyter notebook不香吗&#xff1f;我这可是最新版的windows 100操…

论文浅尝 | 端到端神经视觉问答之上的显式推理

链接&#xff1a;http://www.public.asu.edu/~cbaral/papers/2018-aaai-psl.pdf概述视觉问答(Visual Question Answering)现有两大类主流的问题, 一是基于图片的视觉问答(ImageQuestion Answering), 二是基于视频的视觉问答( Video Question Answering).而后者在实际处理过程中…

机器阅读理解首次超越人类!云从刷新自然语言处理新纪录

媒体动态发展历程资质荣誉人才招聘机器阅读理解首次超越人类&#xff01;云从刷新自然语言处理新纪录 2019-03-11 10:06 浏览&#xff1a;454 近日&#xff0c;云从科技和上海交通大学在自然语言处理领域取得重大突破&#xff0c;在卡内基-梅隆大学发起的大型深层阅读理解任务数…

刚参加完阿里Java P6面试归来,6点面试经验总结!(含必考题答案)

这是来自于优知学院一位铁粉面试回来的总结经验 刚参加完蚂蚁金服的Java P6级的面试&#xff0c;一共参加了4面。面试归来&#xff0c;总结下阿里面试流程、面试过程、以及面试题目范畴。文末有阿里Java P6面试必考题与答案参考~ 阿里面试流程 第一轮&#xff1a;电话技术初面…

如果你不小心打开了这篇文章&#xff0c;请你看完后关掉&#xff0c;不要转发&#xff0c;不要留言&#xff0c;不要问怎么了&#xff0c;不要说你还好吗&#xff0c;也不要给予任何问候。因为我还当&#xff0c;这里是那个三年前&#xff0c;只有陌生听众的地方。今天&#xf…

机器阅读(一)--整体概述

https://plmsmile.github.io/2019/03/30/54-mrc-models/ 主要包含&#xff1a;机器阅读的起因和发展历史&#xff1b;MRC数学形式&#xff1b;MRC与QA的区别&#xff1b;MRC的常见数据集和关键模型 发展动机 传统NLP任务 1) 词性分析 part-of-speech tagging &#xff1a;判断词…

论文浅尝 | 用图网络做小样本学习

链接&#xff1a; https://arxiv.org/abs/1711.04043本文提出了用 GNN(GraphNeural Network) 来解决 Few-Shot Learning 场景的分类问题。在 Few-Shot Learning 中&#xff0c;每个类别的训练样本数据较少&#xff0c;如果直接训练一个多分类模型&#xff0c;会由于每个类别的样…

史上最强Dubbo面试28题答案详解:核心功能+服务治理+架构设计等

1.Dubbo是什么&#xff1f; Dubbo 是一个分布式、高性能、透明化的 RPC 服务框架&#xff0c;提供服务自动注册、自动发现等高效服务治理方案&#xff0c; 可以和 Spring 框架无缝集成。 RPC 指的是远程调用协议&#xff0c;也就是说两个服务器交互数据。 2.Dubbo的由来&…

数据缺失、混乱、重复怎么办?最全数据清洗指南让你所向披靡

一只小狐狸带你解锁 炼丹术&NLP 秘籍正文来源&#xff1a;机器之心前言要获得优秀的模型&#xff0c;首先需要清洗数据。这是一篇如何在 Python 中执行数据清洗的分步指南。在拟合机器学习或统计模型之前&#xff0c;我们通常需要清洗数据。用杂乱数据训练出的模型无法输出…

深度学习技术在机器阅读理解应用的研究进展

深度学习解决机器阅读理解任务的研究进展:https://blog.csdn.net/malefactor/article/details/52832134 深度学习技术在机器阅读理解应用的研究进展:https://www.imooc.com/article/30060 /* 版权声明&#xff1a;可以任意转载&#xff0c;转载时请标明文章原始出处和作者信息 …

论文浅尝 | 基于开放世界的知识图谱补全

Citation: Baoxu Shi and Tim Weninger (2017). Open-World Knowledge Graph Completion 6, AAAI 2018传统的知识库补全算法如TransE等都是基于Close world assumption 的&#xff0c;也是就说补全的实体必须在知识图谱内。然而事实上大规模的知识图谱是一直进化的&#xff0c;…

快速排序quicksort算法优化

1.基本想想 快速排序使用分治的思想 通过一趟排序将待排序列分割成两部分&#xff0c;其中一部分所有元素均比基准大&#xff0c;另一部分均比基准小 分别对这两部分元素继续进行排序&#xff0c;以达到整个序列有序 2.快排的步骤 1.选择基准 在待排序列中&#xff0c;按…

阿里P8架构师谈:Dubbo的详细介绍、设计思路、以及4大适用场景

Dubbo是什么&#xff1f; Dubbo是一个分布式服务框架&#xff0c;致力于提供高性能和透明化的RPC远程服务调用方案&#xff0c;以及SOA服务治理方案。 简单的说&#xff0c;dubbo就是个服务框架&#xff0c;如果没有分布式的需求&#xff0c;其实是不需要用的&#xff0c;只有…

巨省显存的重计算技巧在TF、Keras中的正确打开方式

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者&#xff1a;苏剑林&#xff08;来自追一科技&#xff0c;人称“苏神”&#xff09;前言在前不久的文章《BERT重计算&#xff1a;用22.5%的训练时间节省5倍的显存开销&#xff08;附代码&#xff09;》中介绍了一个叫做“重计算”的…

论文浅尝 | 用可微的逻辑规则学习完成知识库推理

Citation&#xff1a;Fan Yang,Zhilin Yang, William W. Cohen. Differentiable Learning of Logical Rules for Knowledge Base Reasoning. ICLR 2017.动机本文提出了一个可微的基于知识库的逻辑规则学习模型。现在有很多人工智能和机器学习的工作在研究如何学习一阶逻辑规则&…