大数据知识图谱项目——基于知识图谱的电影问答系统(超详细讲解及源码)

大数据知识图谱项目——基于知识图谱的电影问答系统(超详细讲解及源码)

一、项目概述

知识图谱是将知识连接起来形成的一个网络。由节点和边组成,节点是实体,边是两个实体的关系,节点和边都可以有属性。知识图谱除了可以查询实体的属性外,还可以很方便的从一个实体通过遍历关系的方式找到相关的实体及属性信息。

本项目基于电影知识的问答,通过搭建一个电影领域知识图谱,并以该知识图谱完成自动问答与分析服务。本项目以neo4j作为存储,基于传统规则的方式完成了知识问答,并最终以关键词执行cypher查询,并返回相应结果查询语句作为问答。

该问答系统完全基于规则匹配实现,通过关键词匹配,对问句进行分类,电影问题本身属于封闭域类场景,对领域问题进行穷举并分类,然后使用cypher的match去匹配查找neo4j,根据返回数据组装问句回答,最后返回结果。

二、实现知识图谱的医疗知识问答系统基本流程

1、建立图谱(结构化的,详见代码;非结构化的需要的NLP特别多)
2、构建类别判定(可以基于机器学习方法或者深度学习方法的文本分类或者是基于关键字的规则方法)(本文为规则方法)
3、提取问题中的实体
4、根据类别和实体构建查询语句并查询
5、根处理查询结果并输出

三、实现知识图谱的电影问答系统基本流程

Neo4j版本:Neo4j Desktop1.4.15;
neo4j里面医疗系统数据库版本:4.4.5;
Pycharm版本:2021;
JDK版本:jdk1.8.0_211;
NongoDB版本:MongoDB-windows-x86_64-5.0.14;

四、Node4j实验环境的安装配置

(一)安装JAVA
1.下载java安装包:
官网下载链接:https://www.oracle.com/java/technologies/javase-downloads.html
在这里插入图片描述
本人下载的版本为JDK-1.8,JDK版本的选择一定要恰当,版本太高或者太低都可能导致后续的neo4j无法使用。

安装好JDK之后就要开始配置环境变量了。 配置环境变量的步骤如下:
右键单击此电脑—点击属性—点击高级系统设置—点击环境变量
在这里插入图片描述
在下方的系统变量区域,新建环境变量,命名为JAVA_HOME,变量值设置为刚才JAVA的安装路径,我这里是C:\Program Files\Java\jdk1.8.0_211
在这里插入图片描述
编辑系统变量区的Path,点击新建,然后输入 %JAVA_HOME%\bin
在这里插入图片描述
打开命令提示符CMD(WIN+R,输入cmd),输入 java -version,若提示Java的版本信息,则证明环境变量配置成功。
在这里插入图片描述
2.安装好JDK之后,就可以安装neo4j了
2.1 下载neo4j
官方下载链接:https://neo4j.com/download-center/#community
也可以直接下载我上传到云盘链接:
Neo4j Desktop Setup 1.4.15.exe
https://www.aliyundrive.com/s/huXS4HXMn9V
提取码: 36vf

打开之后会有一个自己设置默认路径,可以根据自己电脑情况自行设置,然后等待启动就行了
在这里插入图片描述
打开之后我们新建一个数据库,名字叫做:“基于电影领域的问答系统”

详细信息看下图:

数据库所用的是4.4.5版本,其他数据库参数信息如下:

项目结构整体目录:

├── README.md       // 描述文件
├── 建立词表.py     // 建立词表的程序文件
├── 建立图谱.py     // 建立知识图谱的程序文件
├── chatbot_graph.py     // 聊天系统主函数文件/运行文件
├── question_classifier.py        // 聊天系统问题分类函数 
├── question_parser.py        // 聊天系统问题转换函数 
├── answer_search.py        // 聊天系统问题回复函数
├── genre.txt        // 建立的词表 
├── movie.txt        // 建立的词表  
├── person.txt        // 建立的词表  
└── data   //数据文件└── genre.csv               // 图谱数据集之一└── movie_to_genre.csv               // 图谱数据集之一└── movie.csv               // 图谱数据集之一└── person_to_movie.csv               // 图谱数据集之一└── person.csv               // 图谱数据集之一└── userdict3.txt               // 图谱数据集之一└── vocabulary.txt              // 图谱数据集之一└── question              // 问题模版(项目中未用,但参考了)└── ...              // 16个问题模版

问答系统框架的构建是通过chatbot_graph.py、answer_search.py、question_classifier.py、question_parser.py等脚本实现。

五、系统实现具体步骤

下面给大家简单介绍一下里面的部分内容和源码。
创建一个“电影问答系统”的知识图谱项目,选择默认的neo4j(defult)数据库:
**加粗样式**
数据库所用的是4.4.5版本,其他数据库参数信息如下:
在这里插入图片描述
我们点击open进去数据库浏览器界面
在这里插入图片描述
里面有我们的端口号和连接用户名user:
在这里插入图片描述
将我们脚本的端口号、用户名和密码与neo4j里面保持一致。
在这里插入图片描述

#graph直接写账号密码会不安全
g=Graph('bolt://localhost:7687',user='neo4j',password='123456')
#创建config以及db.cfg用来存储信息

建立一个与Neo4j图数据库的连接。Graph是py2neo库中的一个类,用于创建一个图数据库的实例。在这里,通过指定bolt://localhost:7687作为数据库的地址和端口,user和password作为登录凭据,来创建一个名为g的图数据库对象。这个对象可以用来执行与数据库相关的操作,比如创建节点、创建关系等。

构建词表和图谱时候,路径要跟我们本地设置的目录保持一致:
在这里插入图片描述
answer_search.py脚本部分代码截图:
在这里插入图片描述
定义一个名为search_main的方法,它接受一个参数sqls,该参数是一个包含多个字典的列表。每个字典代表一个查询,包含两个键:question_type和sql。question_type表示查询的类型,sql是一个包含一个或多个Cypher查询的列表。在方法内部,它首先创建一个空列表final_answers,用于存储最终的答案。然后,它遍历sqls列表中的每个字典。对于每个字典,它提取question_type和sql的值,并创建一个空列表answers来存储查询结果。

接下来,它遍历queries列表中的每个查询,并使用self.g.run(query).data()执行Cypher查询,并将结果添加到answers列表中。最后,它调用answer_prettify方法,将question_type和answers作为参数传递,并将返回的结果存储在final_answer变量中。如果final_answer不为空,则将其添加到final_answers列表中。最后,方法返回final_answers列表,其中包含了所有查询的答案。通过执行一系列的Cypher查询,并将查询结果进行处理和美化,然后返回最终的答案列表。

question_classifier.py脚本部分代码截图:
在这里插入图片描述

question_classifier.py脚本根据问题的内容将问题分类到不同的类型中。在QuestionClassifier类的构造函数中,首先获取当前文件的路径,并根据路径拼接出特征词文件的路径。然后,加载特征词文件中的内容,分别存储到person_wds、movie_wds和genre_wds这三个列表中。接着,将这三个列表中的元素合并到region_words这个集合中。

接下来,通过调用build_actree方法构造了一个领域actree,用于加速过滤。然后,调用build_wdtype_dict方法构建了一个词对应类型的字典wdtype_dict。在构造函数的最后,定义了一些问句疑问词的列表,用于判断问题的类型。这些列表包括评分、上映、风格、剧情、出演、演员简介、合作出演、总共和生日等。最后,打印出初始化完成的提示信息。作用是初始化一个问题分类器对象,并加载特征词和构建相关数据结构,为后续的问题分类做准备。

在这里插入图片描述
成功构建电影知识图谱节点和关系!

脚本运行完之后查看neo4j数据库中构建的知识图谱:

 match (n) return n

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

这里提示:Not all return nodes are being displayed due to Initial Node Display setting. Only 3000 of 5045 nodes are being displayed
由于“初始节点显示”设置,并非所有返回节点都显示。5045个节点中仅显示3000个
这里因为我设置的参数只显示前3000个,只显示了一部分,可以根据自己需求自由设置。

问答框架包含问句分类、问句解析、查询结果三个步骤,首先是构建词表和建立图谱;
问句分类,是通过question_classifier.py脚本实现的。
question_parser.py脚本进行问句分类后对问句进行解析。
answer_search.py脚本对解析后的结果进行查询
chatbot_graph.py脚本进行问答实测。

流程: chatbot_graph(总控)->question_classifier(分类)->question_parser(构建查询语句)->answer_search(处理查询结果并输出)

在这里插入图片描述

这个chatbot_graph脚本是整个问答系统的主程序。首先创建了一个ChatBotGraph类,包含了三个主要的组件:问题分类器(QuestionClassifier)、问题解析器(QuestionParser)和答案搜索器(AnswerSearcher)。在ChatBotGraph类的构造函数中,初始化了这三个组件的实例。QuestionClassifier用于对用户输入的问题进行分类QuestionParser用于解析分类结果,AnswerSearcher用于搜索合适的答案。chat_main方法是主要的交互逻辑。它接收用户输入的问题作为参数,并依次调用分类器、解析器和搜索器来获取最终的答案。如果没有找到合适的答案,将返回一个默认的回答。在代码的最后部分,创建了一个ChatBotGraph的实例,并通过一个死循环不断接收用户输入的问题,并输出对应的回答。

当我们执行chatbot_graph.py主程序,开始实现电影知识问答:
“您好!请输入您想要提问的电影知识问题:”
在这里插入图片描述
我们输入一个简单的问题:“李连杰和成龙的简介”
问答系统返回的结果如下:
在这里插入图片描述
再试试其它的问题:比如十面埋伏的评分、十面埋伏和功夫的简介、黄飞鸿之三狮王争霸里面的演员等等,当然不仅限于此,还有很多关于电影知识方面都可以问,对脚本也进行了一些优化。
问答系统返回结果如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

最后总结一下本文章基于电影问答系统的主要特征是知识图谱,系统依赖一个或多个领域的实体,并基于图谱进行推理或演绎,深度回答用户的问题,更擅长回答知识性问题,与基于模板的聊天机器人有所不同的是它更直接、直观的给用户答案。本项目问答系统没有复杂的算法,一般采用模板匹配的方式寻找匹配度最高的答案,可以直接给出答案。经过测试本问答系统能回答的问题有很多,基于问句中存在的关键词回答效果表现很好。做出来的基于电影知识问答系统能够根据用户提出的问题很好的进行解答。做出来的问答系统还是很Nice的。

我还写了另一篇关于大数据知识图谱项目——基于知识图谱的医疗知识问答系统(超详细讲解及源码)的文章,附链接:
https://blog.csdn.net/Myx74270512/article/details/129147862?spm=1001.2014.3001.5502

这里只是简要介绍一下项目的部署和一些细节部分,具体详细内容和部署细节在开发文档里面,各位有兴趣的小伙伴可以私信我要详细的项目开发文档、完整项目源码和其它相关资料。
在这里插入图片描述
欢迎各位小伙伴的来访!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/142631.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android 12.0 中 清除通知 , 系统源码分析(二)

Android 提供了标准的api供第三方应用去清除通知,如下: NotificationManager notificationManager (NotificationManager)getSystemService(Context.NOTIFICATION_SERVICE);notificationManager.cancel(id);//删除指定id的通知 notificationManager.cancelAll();//删除全部通…

pycharm pro v2023.2.4(Python编辑开发)

PyCharm2023是一款集成开发环境(IDE),专门为Python编程语言设计。以下是PyCharm2023的一些主要功能和特点: 代码编辑器:PyCharm2023提供了一个功能强大的代码编辑器,支持语法高亮、自动补全、代码调试、版…

AI歌姬,C位出道,基于PaddleHub/Diffsinger实现音频歌声合成操作(Python3.10)

懂乐理的音乐专业人士可以通过写乐谱并通过乐器演奏来展示他们的音乐创意和构思,但不识谱的素人如果也想跨界玩儿音乐,那么门槛儿就有点高了。但随着人工智能技术的快速迭代,现在任何一个人都可以成为“创作型歌手”,即自主创作并…

《数据结构、算法与应用C++语言描述》-队列的应用-工厂仿真

工厂仿真 完整可编译运行代码见:Github::Data-Structures-Algorithms-and-Applications/_19Factory simulation/ 问题描述 一个工厂有m台机器。工厂的每项任务都需要若干道工序才能完成。每台机器都执行一道工序,不同的机器执行不同的工序。一台机器一…

Python数据结构:集合(set)详解

1.集合的概念 在Python中,集合(Set)是一种无序、不重复的数据类型,它的实现基于哈希表,是由唯一元素组成的。集合中不允许有重复的元素,即相同元素只能出现一次。Python中的集合类似于数学中的集合&#xf…

Double DQN算法

Double DQN算法 问题 DQN 算法通过贪婪法直接获得目标 Q 值,贪婪法通过最大化方式使 Q 值快速向可能的优化目标收敛,但易导致过估计Q 值的问题,使模型具有较大的偏差。 即: 对于DQN模型, 损失函数使用的 Q(state) reward Q(ne…

Java14新增特性

前言 前面的文章,我们对Java9、Java10、Java11、Java12 、Java13的特性进行了介绍,对应的文章如下 Java9新增特性 Java10新增特性 Java11新增特性 Java12新增特性 Java13新增特性 今天我们来一起看一下Java14这个版本的一些重要信息 版本介绍 Java 14…

线程相关问题

多线程 计算机在同一时间可以执行多个线程 并行 多个事情在同一时间点内发生,并行的发生是不会抢占资源的 并发 多个事情在一段时间内同时发生,并发的产生会抢占资源 多线程的好处 如果为单线程计算机一次只能处理一个线程,那么当处理的线程需…

JNDI注入

1、什么是 JNDI JNDI(Java Naming and Directory Interface, Java命名和目录接口),JNDI API 映射为特定的命名(Name)和目录服务(Directory)系统,使得Java应用程序可以和这些命名(Name&#xff…

【Shell脚本11】Shell 函数

Shell 函数 linux shell 可以用户定义函数,然后在shell脚本中可以随便调用。 shell中函数的定义格式如下: [ function ] funname [()]{action;[return int;]}说明: 1、可以带function fun() 定义,也可以直接fun() 定义,不带任何…

SQL基础理论篇(一):什么是SQL

文章目录 什么是SQLSQL的四大部分常用的SQL标准参考文献 什么是SQL SQL的全称是Structured Query Language,即结构化查询语句。 其最早诞生于1974年,IBM研究员发布的一篇论文"SEQUEL:一门结构化的英语查询语言"。这几十年里&…

旺店通·企业版对接打通金蝶云星空查询调拨单接口与分布式调入单新增接口

旺店通企业版对接打通金蝶云星空查询调拨单接口与分布式调入单新增接口 源系统:旺店通企业版 旺店通是北京掌上先机网络科技有限公司旗下品牌,国内的零售云服务提供商,基于云计算SaaS服务模式,以体系化解决方案,助力零售企业数字化…

Android framework添加自定义的Product项目,lunch目标项目

文章目录 Android framework添加自定义的Product项目1.什么是Product?2.定义自己的Product玩一玩 Android framework添加自定义的Product项目 1.什么是Product? 源码目录下输入lunch命令之后,简单理解下面这些列表就是product。用于把系统编…

OpenCV+特征检测

检测 函数cv.cornerHarris()。其参数为: img 输入图像,应为灰度和float32类型blockSize是拐角检测考虑的邻域大小ksize 使用的Sobel导数的光圈参数k 等式中的哈里斯检测器自由参数 import numpy as np import cv2 as cv filename chessboard.png img…

如何显示标注的纯黑mask图

文章目录 前言一、二分类mask显示二、多分类mask显示 前言 通常情况下,使用标注软件标注的标签图看起来都是纯黑的,因为mask图为单通道的灰度图,而灰度图一般要像素值大于128后,才会逐渐显白,255为白色。而标注的时候…

sass 生成辅助色

背景 一个按钮往往有 4 个状态。 默认状态hover鼠标按下禁用状态 为了表示这 4 个状态&#xff0c;需要设置 4 个颜色来提示用户。 按钮类型一般有 5 个&#xff1a; 以 primary 类型按钮为例&#xff0c;设置它不同状态下的颜色&#xff1a; <button class"btn…

IP-guard Webserver view 远程命令执行漏洞【2023最新漏洞】

IP-guard Webserver view 远程命令执行漏洞【2023最新漏洞】 一、漏洞描述二、漏洞影响三、漏洞危害四、FOFA语句五、漏洞复现1、手动复现yaml pocburp发包 2、自动化复现小龙POC检测工具下载地址 免责声明&#xff1a;请勿利用文章内的相关技术从事非法测试&#xff0c;由于传…

R程序 示例4.3.2版本包 在centos进行编译部署

为了在CentOS上下载和编译R语言4.3.2包&#xff0c;可以按照以下步骤进行操作&#xff1a; 1.首先&#xff0c;需要安装一些必要的依赖项。可以使用以下命令安装它们&#xff1a; sudo yum install -y epel-release sudo yum install -y gcc gcc-c gcc-gfortran readline-dev…

Linux 使用随记

Linux 使用随记 shell 命令行模式登录后所取得的程序被成为shell&#xff0c;这是因为这个程序负责最外层的跟用户&#xff08;我们&#xff09;通信工作&#xff0c;所以才被戏称为shell。 命令 1、命令格式 command [-options] parameter1 parameter2 … 1、一行命令中第…

UML建模语言

UML建模语言 类的关系 依赖关系 类的方法中使用形参、局部变量或者静态方法的方式调用其他类&#xff0c;表示当前类依赖其他类。 public class Main {public void eat(Person person) {person.play();// 方法参数Student student new Student();student.study();// 局部变…