LLM - 使用 Neo4j 可视化 GraphRAG 构建的 知识图谱(KG) 教程

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/142938982

免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。


Neo4j

Neo4j 是一个高性能的图形数据库,允许用户以图形的形式存储和检索数据,这种形式非常适合处理复杂的关系和网络结构,因其在数据关系处理方面的强大能力而广受欢迎,尤其是在社交网络、推荐系统、网络分析等领域。

构建 GraphRAG 的知识图谱,请参考:配置 GraphRAG + Ollama 服务 构建 中文知识图谱 教程(踩坑记录)

  • Doc:https://neo4j.com/docs/apoc/current/

1. 配置 Neo4j 服务

准备 Docker,参考 Docker - Neo4j

docker pull neo4j:5.24.1

启动 Docker (直接启动,同时运行服务):

docker run --network=host --gpus all --rm --name neo4j-apoc \
-e NEO4J_apoc_export_file_enabled=true \
-e NEO4J_apoc_import_file_enabled=true \
-e NEO4J_apoc_import_file_use__neo4j__config=true \
-e NEO4J_PLUGINS=\[\"apoc\"\] \
--volume=[your folder]:[your folder] \
neo4j:5.24.1

或者,进入 Docker,再启动服务:

docker run --network=host --gpus all -it --name neo4j-apoc -e NEO4J_apoc_export_file_enabled=true -e NEO4J_apoc_import_file_enabled=true -e NEO4J_apoc_import_file_use__neo4j__config=true -e NEO4J_PLUGINS=\[\"apoc\"\] --volume=[your folder]:[your folder] neo4j:5.24.1 /bin/bashbin/neo4j start

注意:使用 Neo4j + APOC 版本的 Docker。APOC(Awesome Procedures on Cypher) 是 Neo4j 图数据库的一个插件,提供一组强大的过程和函数,扩展 Cypher 查询语言的功能。参考:Neo4J and APOC

日志:

Installing Plugin 'apoc' from /var/lib/neo4j/labs/apoc-*-core.jar to /var/lib/neo4j/plugins/apoc.jar
Applying default values for plugin apoc to neo4j.conf
2024-10-15 01:40:54.429+0000 INFO  Logging config in use: File '/var/lib/neo4j/conf/user-logs.xml'
2024-10-15 01:40:54.443+0000 INFO  Starting...
2024-10-15 01:40:55.191+0000 INFO  This instance is ServerId{0350f51a} (0350f51a-ef80-414f-b82f-8e4b38fc369f)
2024-10-15 01:40:56.078+0000 INFO  ======== Neo4j 5.24.1 ========
2024-10-15 01:40:58.875+0000 INFO  Anonymous Usage Data is being sent to Neo4j, see https://neo4j.com/docs/usage-data/
2024-10-15 01:40:58.910+0000 INFO  Bolt enabled on 0.0.0.0:7687.
2024-10-15 01:40:59.325+0000 INFO  HTTP enabled on 0.0.0.0:7474.
2024-10-15 01:40:59.326+0000 INFO  Remote interface available at http://localhost:7474/
2024-10-15 01:40:59.328+0000 INFO  id: 3C118963730B6744966FCB5FC5D9D5795B11AD1F791A4DDC113D02D1F926441F
2024-10-15 01:40:59.329+0000 INFO  name: system
2024-10-15 01:40:59.329+0000 INFO  creationDate: 2024-10-15T01:40:57.342Z
2024-10-15 01:40:59.329+0000 INFO  Started.

启动服务:http://[your ip]:7474/browser/,默认账户和密码都是 neo4j,需要修改新密码 xxxxxx,建议 neo4j123 (自定义)。

启动页面,注意,实体和关系都空的,即:

Neo4j

2. 注入知识图谱数据

数据位于:/var/lib/neo4j/data/databases/neo4j,其中 neo4j 是数据库。

读取 GraphRAG 的知识图谱数据,如下:

import os
import pandas as pdrag_dir = "[your folder]/llm/graphrag/ragtest/output/"entities = pd.read_parquet(os.path.join(rag_dir, "create_final_entities.parquet"))
relationships = pd.read_parquet(os.path.join(rag_dir, "create_final_relationships.parquet"))
text_units = pd.read_parquet(os.path.join(rag_dir, "create_final_text_units.parquet"))
communities = pd.read_parquet(os.path.join(rag_dir, "create_final_communities.parquet"))
community_reports = pd.read_parquet(os.path.join(rag_dir, "create_final_community_reports.parquet"))

测试数据:

entities.head(2)
relationships.head(2)
text_units.head(2)
communities.head(2)
community_reports.head(2)

连接服务器:

NEO4J_URI = "neo4j://localhost:7687"
NEO4J_USERNAME = "neo4j"
NEO4J_PASSWORD = "xxxxxx"	# 之前修改的密码
NEO4J_DATABASE = "neo4j"  	# 默认
driver = GraphDatabase.driver(NEO4J_URI, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))

注意:社区版本,不能创建新的 Database 只能使用默认的 neo4j,创建命令 CREATE DATABASE my-database,参考

数据导入函数:

def import_data(cypher, df, batch_size=1000):for i in range(0,len(df), batch_size):batch = df.iloc[i: min(i+batch_size, len(df))]result = driver.execute_query("UNWIND $rows AS value " + cypher, rows=batch.to_dict('records'),database_=NEO4J_DATABASE)print(result.summary.counters)return 

导入 text_units 命令:

#导入text_units
cypher_text_units = """
MERGE (c:__Chunk__ {id:value.id})
SET c += value {.text, .n_tokens}
WITH c, value
UNWIND value.document_ids AS document
MATCH (d:__Document__ {id:document})
MERGE (c)-[:PART_OF]->(d)
"""import_data(cypher_text_units, text_units)

运行成功,日志:

{'_contains_updates': True, 'labels_added': 99, 'relationships_created': 235, 'nodes_created': 99, 'properties_set': 396}

导入 entities 数据的命令:

#导入entities
cypher_entities= """
MERGE (e:__Entity__ {id:value.id})
SET e += value {.human_readable_id, .description, name:replace(value.name,'"','')}
WITH e, value
CALL db.create.setNodeVectorProperty(e, "description_embedding", value.description_embedding)
CALL apoc.create.addLabels(e, case when coalesce(value.type,"") = "" then [] else [apoc.text.upperCamelCase(replace(value.type,'"',''))] end) yield node
UNWIND value.text_unit_ids AS text_unit
MATCH (c:__Chunk__ {id:text_unit})
MERGE (c)-[:HAS_ENTITY]->(e)
"""import_data(cypher_entities, entities)

导入 relationships 数据的命令:

#导入relationships
cypher_relationships = """MATCH (source:__Entity__ {name:replace(value.source,'"','')})MATCH (target:__Entity__ {name:replace(value.target,'"','')})// not necessary to merge on id as there is only one relationship per pairMERGE (source)-[rel:RELATED {id: value.id}]->(target)SET rel += value {.rank, .weight, .human_readable_id, .description, .text_unit_ids}RETURN count(*) as createdRels
"""import_data(cypher_relationships, relationships)

导入 communities 数据的命令:

#导入communities
cypher_communities = """
MERGE (c:__Community__ {community:value.id})
SET c += value {.level, .title}
/*
UNWIND value.text_unit_ids as text_unit_id
MATCH (t:__Chunk__ {id:text_unit_id})
MERGE (c)-[:HAS_CHUNK]->(t)
WITH distinct c, value
*/
WITH *
UNWIND value.relationship_ids as rel_id
MATCH (start:__Entity__)-[:RELATED {id:rel_id}]->(end:__Entity__)
MERGE (start)-[:IN_COMMUNITY]->(c)
MERGE (end)-[:IN_COMMUNITY]->(c)
RETURn count(distinct c) as createdCommunities
"""import_data(cypher_communities, communities)

导入 community_reports 数据的命令:

#导入community_reports
cypher_community_reports = """MATCH (c:__Community__ {community: value.community})
SET c += value {.level, .title, .rank, .rank_explanation, .full_content, .summary}
WITH c, value
UNWIND range(0, size(value.findings)-1) AS finding_idx
WITH c, value, finding_idx, value.findings[finding_idx] as finding
MERGE (c)-[:HAS_FINDING]->(f:Finding {id: finding_idx})
SET f += finding"""
import_data(cypher_community_reports, community_reports)

3. 测试效果

启动 Neo4j 页面,知识图谱可视化,包括 Node labels 和 Relationship types 等功能,即:

数据

其他知识图谱元素的可视化,参考 Neo4j 的文档。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/56468.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySql的redo log

文章目录 什么是redo logredo log 组成数据更新流程两阶段提交binlog为什么要两阶段提交结语 数据库事务的4个特性之一的持久性是数据库保证数据一致性的关键,mysql为了确保事务在系统崩溃后也能恢复,引入了redo log 重做日志这一机制。 什么是redo log…

2024前端面试题大全

2024前端面试题大全涵盖了多个方面,包括HTML、CSS、JavaScript、Vue、React等前端技术。‌ HTML和CSS面试题 ‌HTML5新特性‌:包括绘画canvas、媒体回放元素video和audio、本地离线存储localStorage和sessionStorage、语义化更好的内容元素如article、…

大厂面试真题-说说jdk1.7和1.8的hashmap的区别以及各自的问题

JDK 1.7和JDK 1.8中的HashMap存在显著的区别,并且各自存在一些问题。以下是对两者的详细对比及问题分析: 一、区别 底层数据结构: JDK 1.7:HashMap的底层结构是由数组(也被称为“位桶”)和链表构成。当has…

向日葵下载教程以及三款远程控制工具推荐!!!

向日葵远程控制下载教程!! 亲爱的朋友们,如果你对远程控制软件有所需求,那么向日葵绝对是一个不错的选择。现在我将带你走一遍向日葵的下载流程。 1. 打开你的浏览器,输入“向日葵官方网站”,进入官方网站…

presence_of_element_located() takes 1 positional argument but 2 were given

错误提示是 TypeError: presence_of_element_located() takes 1 positional argument but 2 were given,这表明 presence_of_element_located 期望接收一个参数,但传递了两个。 问题原因 在 selenium.webdriver.support.expected_conditions 中&#xf…

线性回归逻辑回归-笔记

一、线性回归(Linear Regression) 1. 定义 线性回归是一种用于回归问题的算法,旨在找到输入特征与输出值之间的线性关系。它试图通过拟合一条直线来最小化预测值与真实值之间的误差。 2. 模型表示 线性回归模型假设目标变量(输…

【黑苹果】记录MacOS升级Sonoma的过程

【黑苹果】记录MacOS升级Sonoma的过程 一、硬件二、提前说明三、准备OC四、选择驱动五、选择ACPI六、下载内核扩展七、其他问题 一、硬件 设备是神舟zx6-ct5da 具体参照下图 二、提前说明 本机器已经安装过 macOS Monterey 12.6,这次是升级到 macOS Sonoma 14。 …

测试教程分享

前几年在腾讯课堂上发布了不少课程,后来腾讯课堂改革,要收会员费,课程还要抽提程,这么下来就相当于白干了。就放弃了在上面发课程,再后来腾讯课堂就关闭了,以前发布的视频就没有地方发了,于是我…

火车头采集器易优cms采集发布模块下载

火车头采集器发布数据到易优cms(Eyoucms)的详细流程: 1. 火车头采集器易优cms(Eyoucms)发布模块下载地址: 火车头Eyoucms发布模块插件下载-CSDN 2. 在火车头导入下载的易优cms采集发布模块; …

uniapp学习(003-2 vue3学习 Part.2)

零基础入门uniapp Vue3组合式API版本到咸虾米壁纸项目实战,开发打包微信小程序、抖音小程序、H5、安卓APP客户端等 总时长 23:40:00 共116P 此文章包含第15p-第p20的内容 文章目录 事件监听以及组件内置事件处理自定义模板快速创建uniapp条件渲染 v-if和v-elsev-e…

一分钟带你认清Java抽象类

abstrat——抽象,抽象类真的有像它的名字一样那么抽象吗?其实不然,它只是一个比较特殊的类别,我们只需要简单地认清它的作用就行,一起来看看吧~ 抽象类的概念 首先我们要明确一个事情:在面向对象的概念中&…

spring boot 项目配置文件

第一种properties文件(自带基础) 新建项目是会在resources目录下默认properties文件 第二种yml文件(常用) 格式类型:spring boot支持3种配置文件,分别是xx.properties,xx.yaml,xx.yml;同一个项目若配置这3种…

2024软考网络工程师笔记 - 第4章.局域网和城域网

文章目录 局域网基础1️⃣局域网和城域网体系架构 IEEE(负责链路层)2️⃣局域网拓扑结构 🕑CSMA/CD1️⃣CSMA/CD2️⃣CSMA/CD三种监听算法3️⃣冲突检测原理 🕒二进制指数退避算法1️⃣ 二进制指数退避算法 🕓最小帧长…

【JavaScript】LeetCode:71-75

文章目录 71 搜索插入位置72 搜索二维矩阵73 在排序数组中查找元素的第一个和最后一个位置74 搜索旋转排序数组75 寻找旋转排序数组中的最小值 71 搜索插入位置 二分查找在最后一轮比较中,mid所指向的值 > target,right往左收,此时left所指…

R语言实现多元线性回归高杠杠点,离群点分析

14a set.seed(1) x1 = runif(100) x2 = 0.5 * x1 + rnorm(100)/

【自然语言处理】Encoder-Decoder模型中Attention机制的引入

在 Encoder-Decoder 模型中引入 Attention 机制,是为了改善基本Seq2Seq模型的性能,特别是当处理长序列时,传统的Encoder-Decoder模型容易面临信息压缩的困难。Attention机制可以帮助模型动态地选择源序列中相关的信息,从而提高翻译…

云原生、云计算、虚拟化概念概述

(带着批评阅读,不对的请评论区补充) 1、出现年代前后顺序 虚拟化------>云计算------>云原生 2、虚拟化 虚拟化侧重描述实现,最开始的技术是模拟、hook指令执行软件程序,后续出现了半虚拟化、CPU硬件提供虚拟化…

【数据库MySQL作业】

(简答题) 1、按照结构表提示在数据库中创建数据表,要求使用SQL 语句实现。 2、按照下列要求完成操作,要求使用SQL 语句实现。 (1) 为读者表 reader 指定检査约束,即指定性别 sex 字段的值只能是“男”或“女”。 (2) 修改读者表reader 的默认…

追加word,返回中第 k 个字符的值

Alice 和 Bob 正在玩一个游戏。最初,Alice 有一个字符串 word "a"。 给定一个正整数 k。 现在 Bob 会要求 Alice 执行以下操作 无限次 : 将 word 中的每个字符 更改 为英文字母表中的 下一个 字符来生成一个新字符串,并将其 追加 到原始的…

RAG中向量召回怎么做

目录 1. 文档嵌入 2. 查询处理 3. 向量搜索 4. 结果融合 5. 实现细节 使用 FAISS 进行向量召回 在检索增强生成(Retrieval-Augmented Generation, RAG)框架中,向量召回是一个关键步骤,它涉及到从一个大规模的文档库或知识库…