军事武器知识图谱构建与自动问答项目QAonMilitaryKG

QAonMilitaryKG

 QAonMilitaryKG,QaSystem based on military knowledge graph that stores in mongodb which is different from the previous one, 基于mongodb存储的军事领域知识图谱问答项目,包括飞行器、太空装备等8大类,100余小类,共计5800项的军事武器知识库,该项目不使用图数据库进行存储,通过jieba进行问句解析,问句实体项识别,基于查询模板完成多类问题的查询,主要是提供一种工业界的问答思想demo。
项目地址:
https://github.com/liuhuanyong/QAonMilitaryKG

项目背景

 基于知识图谱或知识库的问答KBQA是目前垂直领域或百科领域问答中使用较多的一种问答方式,本质上是在做结构化数据的匹配查询任务。笔者之前利用neo4g图数据库上基于医疗领域结构化知识库,阐述了基于图数据库的医疗知识图谱构建与问答方案,并实现了一个简单的demo。项目见:(https://github.com/liuhuanyong/QASystemOnMedicalKG)
 技术选型是实现自动问答系统的一个重要环节,这项工作与数据样式关系尤为密切。经验上来说,对于实体类型较多以及实体关系种类较多的知识库,使用图数据进行知识存储是个较好的选择。而对应实体类型较少,实体关系较少,实体属性较多以及带有时序性的数据时,选用文档型数据库mongodb是个不错的选择。
 军事领域是敏感度、机密系数较高的一个领域,其数据价值很高,获取相关军事数据并提供一个便捷的人机交互方式具有重要的战略意义。军事中的装备信息,军事基地信息,军事作战部队之间的关联信息,以图谱的形式组织,能够在作战策略推荐,军事人员培训上起到重要作用。目前,公开的军事资料不多,收录较全的有环球军事网,其中的人物,战役,兵器库,术语库等为军事提供了一个很好的信息平台。其中,武器库是其中结构化程度较高的一项数据,其中包括了飞行器、舰艇等8大类武器,轰炸机等100余小类,共计5800项武器结构化数据。这为结构化知识问答提供了一个的数据,因此,本项目选择该数据集作为知识库,使用mongodb进行自动问答的实验。
 本项目有2个重要目标:
 1,采集并解析军事武器库网站,进行字段信息的标准化,形成一定规范、规模的军事武器装备结构化知识库。
 2,实现基于mongodb的军事领域知识库的自动问答。

项目框架

在这里插入图片描述

项目构成

1, 数据集类型及统计信息

项目数量示例
大类8飞行器,太空装备
小类148护卫舰艇, 航天基地,卫星
国家88中国,美国,苏联,日本
武器类实体5800神舟五号,神舟7号,AK-47,歼-15
实体属性184最大飞行速度,成员,长度,首次发射轨道,口径
实体关系1<轰炸机,SUB_CLASS,飞行器>

2, 数据样式

在这里插入图片描述
在这里插入图片描述

3, 问句类型

问句大类问句小类问句举例
属性值问答单实体单属性问答神舟五号的长度是多少?
属性值问答单实体多属性问答神舟五号的长度以及运载火箭是多少?
属性值问答多实体单属性问答神舟五号以及神舟十号的长度是多少?
属性值问答多实体多属性问答神舟五号的长度,运载火箭以及辽宁舰艇的航长分别为多少是多少?
属性区间值筛选问答单属性区间问答最大飞行速度大于500公里的战斗机?
属性区间值筛选问答单属性多区间问答服役时间在1950年之后2000年之前的轰炸机?
属性区间值筛选问答多属性多区间问答服役时间在1950年之后2000年之前且最大航程大于5000公里的运输机?
属性最值筛选单实体属性最值问答长度最长的宇宙飞船

项目运行

主要文件构成如下:

文件名称中文名称实现功能
collect_data.py数据获取网站公开数据解析与获取
insert_data.py数据导入对数据进行标准化并存入至数据库
military_qa.py知识问答知识问答
military.json数据文件5800条武器知识

 项目执行步骤:
 1、执行insert_data.py,将输入倒入至mongodb当中。
 2、执行military_qa.py,开始进行问答测试。
 ps:若需要进行自我重新构建数据,可运行collect_data.py。

项目结果

在这里插入图片描述

总结

1、本项目完成了采集并解析军事武器库网站,进行字段信息的标准化,形成一定规范、规模的军事武器装备结构化知识库。实现基于mongodb的军事领域知识库的自动问答。
2、本项目简要介绍了工业级的问答架构图,该架构图朴实且如实地介绍了面相结构化文本的知识构建以及结构化查询流程以及粗略实现细节。
3、面向具有数字型数据的结构化知识的问句的形式有多种,主要有纯属性值查询如:单实体单属性,单实体多属性,多实体单属性,多实体多属性等问题。带筛选条件查询,如如单属性值与多属性值区间查询。最值条件查询共三种,本项目初步实现了对这三种主要问句类型问答。
4、在实体识别,属性值识别,数值识别上,主要采用的方式是领域词及扩展词,配合正则表达式的方式来实现,没有使用学习模型。作为军事领域,学习模型在武器类实体识别上效果可能不会太好,在识别后进行实体链接映射会遇到一定困难。
5、实体与查询属性项之间的对应和成对是整个问答查询的最核心所在,本项目使用基于关系模板穷举的方式完成该目标,准确率较高,但缺点是穷举可能性不大,构造成本较高。
6、既然是结构化知识问答,那么业务场景下的问答应该是简单的,多实体多属性混杂出现的情况应该要少一些,即问题的问答可以很多样,但问题的内部结构不应太复杂,否则就丢失了自动问答解放信息杂糅的本意了。
7、知识图谱是结构化知识的一种方式,存储方式可以用关系型,可以用nosql,也可以用图数据库,不同的方式的区别在于sql的转化上。在关系级联程度不高的情况下,使用非图数据库可能会是更好的方式。
8、深度学习在工业界问答中,在基于qa对检索中用的比较多,在结构化知识图谱查询中较难大显身手,集中应用点在实体论元识别上,个人认为在实体属性关系的识别上不会很惊艳,很有可能没有规则来的快,来的准确。

如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我:
1、我的github项目介绍:https://liuhuanyong.github.io。
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com
4、我的公众号:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480409.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python--从入门到实践--chapter 9 类

类的定义格式&#xff1a; class Name(Father_class):def __init__(self, para, ...):self.para xdef __init__(self, para, ...):super().__init__(para, ...) #调用父类的构造函数class Car():def __init__(self,make,model,year): #构造函数self.make makeself.model mo…

连载 | 知识图谱发展报告 2018 -- 前言

OpenKG 将开始连载《知识图谱发展报告(2018)》&#xff0c;希望该连载能够让更多的人深入了解知识图谱。欢迎各位读者留言讨论。1. 知识图谱的研究目标与意义 知识图谱&#xff08;Knowledge Graph&#xff09;以结构化的形式描述客观世界中概念、实体及其关系&#xff0c;将互…

网址(url),域名,ip地址,dns,hosts之间的关系

网址&#xff08;url&#xff09;&#xff0c;域名&#xff0c;ip地址&#xff0c;dns&#xff0c;hosts之间的关系 什么是ip&#xff1f; 我们知道&#xff0c;在Internet上有千百万台主机&#xff0c;为了区分这些主机&#xff0c;人们给每台主机都分配了一个专门的地址&…

事理图谱概念辨析及其与风险标签分类结合的应用探讨

以事件为描述核心&#xff0c;以揭示事件之间的演化逻辑关系的事理图谱自提出后&#xff0c;引起了工业界的极大兴趣&#xff0c;在积极探索事理图谱本质、事理图谱构建技术细节的同时&#xff0c;如何找到技术与应用场景之间的结合成为目前广泛讨论的问题。我们团队持续对以上…

一篇文章带你熟悉 TCP/IP 协议(网络协议篇二)

涤生_Woo2017年11月11日阅读 15544关注一篇文章带你熟悉 TCP/IP 协议&#xff08;网络协议篇二&#xff09;同样的&#xff0c;本文篇幅也比较长&#xff0c;先来一张思维导图&#xff0c;带大家过一遍。一图看完本文一、 计算机网络体系结构分层计算机网络体系结构分层计算机网…

PyTorch数据Pipeline标准化代码模板

前言PyTorch作为一款流行深度学习框架其热度大有超越TensorFlow的感觉。根据此前的统计&#xff0c;目前TensorFlow虽然仍然占据着工业界&#xff0c;但PyTorch在视觉和NLP领域的顶级会议上已呈一统之势。这篇文章笔者将和大家聚焦于PyTorch的自定义数据读取pipeline模板和相关…

2019 最全支付宝高级Java现场面试37题

支付宝现场三面面试题目,文末有福利&#xff1a;阿里经典面试88题目答案 01 支付宝一面 介绍一下自己。 项目参与的核心设计有哪些 ArrayList和LinkedList底层 HashMap及线程安全的ConcurrentHashMap&#xff0c;以及各自优劣势 Java如何实现线程安全 Synchronized和Lock…

腾讯互娱刘伟 | 知识图谱在运维中的应用

本文转载自公众号&#xff1a;InfoQ。随着业务监控建设不断完善&#xff0c;海量业务故障时产生成百上千条告警&#xff0c;如何智能定位故障根源、实时统计业务影响是现阶段运营面临的一个难题。Google 利用知识图谱优化了其搜索服务以来&#xff0c;知识图谱得到了迅速发展。…

中文人物关系图谱构建与应用项目(人物关系抽取,关系抽取评测)

ChinesePersonRelationGraph ChinesePersonRelationGraph, person relationship extraction based on nlp methods.中文人物关系知识图谱项目,内容包括中文人物关系图谱构建,基于知识库的数据回标,基于远程监督与bootstrapping方法的人物关系抽取,基于知识图谱的知识问答等应用…

2019 最新阿里中间件Java 4轮面试题!60万年薪起步~

Java中间件一面 1.技术一面考察范围&#xff1a; 重点问了Java线程锁&#xff1a;synchronized 和ReentrantLock相关的底层实现 线程池的底层实现以及常见的参数 数据结构基本都问了一遍&#xff1a;链表、队列等 Java内存模型&#xff1a;常问的JVM分代模型&#xff0c;以…

0011【冥想】87天冥想感悟汇总

0011【冥想】87天冥想感悟汇总 2018.1.6 Day1图片发自简书App1.7 Day2图片发自简书App❤️1.8冥想Day3❤️听了谷老师的分享&#xff0c;挺受益的。当我们的心越来越柔软&#xff0c;身体也会越来越柔软&#xff0c;所谓相由心生&#xff0c;冥想的时候&#xff0c;身体也会听从…

这个自然语言处理“工具”,玩得停不下来

今天推荐一个有趣的自然语言处理公众号「AINLP」&#xff0c;关注后玩得根本停不下来&#xff01;AINLP的维护者是我爱自然语言处理&#xff08;52nlp&#xff09;博主&#xff0c;他之前在腾讯从事NLP相关的研发工作&#xff0c;目前在一家创业公司带技术团队。AINLP公众号的定…

观点 | 抛开炒作看知识图谱,为什么现在才爆发?

本文转载自公众号&#xff1a;AI前线。 作者 | George Anadiotis 译者 | 无明 导读&#xff1a;知识图谱究竟是什么&#xff0c;都有哪些围绕它们的炒作&#xff1f;如果你想要像 Airbnb、亚马逊…

算法--排序--寻找数组内第K大的元素

此题目&#xff0c;需要用到快速排序里的划分数组操作&#xff1a; 快排参考&#xff1a;https://blog.csdn.net/qq_21201267/article/details/81516569#t2 先选取一个合适的哨兵&#xff08;三数取中法&#xff09;将数组分成三部分【小于哨兵的】【哨兵】【大于等于哨兵的】…

淘宝网Java五面:现场面试49题含答案!

淘宝一面: 面试介绍 1&#xff09;自我介绍&#xff1f; 2&#xff09;项目介绍&#xff1f; 3&#xff09;遇到的最大困难是什么&#xff1f;怎么解决的&#xff1f; 4&#xff09;你觉得你能怎么优化这个项目&#xff1f; 面试题目 1&#xff09;讲一下JVM 2&#xff…

告别自注意力,谷歌为Transformer打造新内核Synthesizer

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者&#xff1a;舒意恒&#xff08;南京大学硕士生&#xff0c;知识图谱方向&#xff09;今天给大家介绍一篇来自Google的最新论文《SYNTHESIZER: Rethinking Self-Attention in Transformer Models》[4]&#xff0c;该论文重新探索了T…

50万抽象知识图谱项目(实体抽象、性状抽象与动作抽象)

AbstractKnowledgeGraph AbstractKnowledgeGraph, a systematic knowledge graph that concentrate on abstract thing including abstract entity and action. 抽象知识图谱&#xff0c;目前规模50万&#xff0c;支持名词性实体、状态性描述、事件性动作进行抽象。目标于抽象…

算法--排序--大小写字母数字分离(桶排序思想)

题目&#xff1a; 对D&#xff0c;a&#xff0c;F&#xff0c;B&#xff0c;c&#xff0c;A&#xff0c;z这个字符串进行排序&#xff0c;要求将其中所有小写字母都排在大写字母的前面&#xff0c;但小写字母内部和大写字母内部不要求有序。比如经过排序之后为a&#xff0c;c&a…

2019 最新蚂蚁花呗Java三面题目:红黑树+并发容器+CAS+Solr+分布式等

蚂蚁金服专场 涵盖了蚂蚁金服从Java工程师到技术专家面试题目 支付宝高级Java三面题目&#xff1a;线程锁事务雪崩Docker等 蚂蚁花呗团队面试题&#xff1a;LinkedHashMapSpringCloud线程锁分布式 蚂蚁金服高级Java面试题目 支付宝Java开发四面:NgnixMQ队列集群并发抢购 蚂…

论文浅尝 | 实体图的预览表格生成

链接&#xff1a;ranger.uta.edu/~cli/pubs/2016/tabview-sigmod16-yan.pdf动机对于结构化数据和关系数据&#xff0c;通常使用Schema图为数据库的使用者提供基本信息。因此&#xff0c;作者提出了生成预览表格&#xff08;preview table&#xff09;的方法&#xff0c;为实体图…