知识图谱融入RAG模型:LinkedIn重塑智能客服新范式【附LeCun哈佛演讲PPT】

原文:Retrieval-Augmented Generation with Knowledge Graphs for Customer Service Question Answering

一、研究背景与问题

在客服领域,快速准确地匹配用户问题与历史工单,是提供优质回答的关键。传统的检索增强生成(Retrieval-Augmented Generation, RAG)方法虽然通过大语言模型取得了一定成效,但仍面临两大挑战:

  1. 忽略了工单的结构化信息和工单间的内在联系,导致检索精准度不足。
  2. 为适应模型输入,需对工单进行分割,造成关联信息的割裂,影响答案的完整性。
    LinkedIn研究人员敏锐地洞察到知识图谱在解决上述难题中的潜力,开启了本研究的探索之旅。

二、研究方法

image.png
针对以上难题,LinkedIn团队别具慧眼地提出了一套全新解法。他们以知识图谱为核心,重塑了RAG模型的内在逻辑。首先,原始工单被解析为一棵棵树,每棵树表征一张票证的内部结构,而树与树之间则通过语义相似度等建立联接。如此,海量工单数据被组织为一张张大图,完整保存了其中的结构化信息和关系拓扑。

在此基础上,研究人员将RAG的查询理解、信息检索、答案生成等关键环节与知识图谱进行了深度融合。当用户提出问题时,基于图谱的检索算法会快速锁定最相关的若干工单,同时保留其上下文结构。然后,大语言模型再对这些局部子图进行语义理解和信息抽取,并据此组织生成最终答案。可以看出,这种图谱驱动的RAG范式巧妙地规避了文本分割的弊端,又最大限度地利用了工单间的结构关联,从而实现了检索和问答两个层面的质的飞跃。

实验结果充分印证了LinkedIn方法的优越性。在检索阶段,引入知识图谱使平均倒数排名(MRR)提升了77.6%,检索结果的准确性和相关性大幅跃升。在问答阶段,生成回答的BLEU值较传统RAG模型高出0.32,充分彰显了答案质量的全面进步。更令人振奋的是,这套系统已在LinkedIn的客服团队中落地应用,平均解决单个问题的时间从7小时降至5小时,效率提升28.6%。由此可见,知识图谱赋能RAG模型,不仅是学术探索,更是切实可行的商业方案。

下面,我们具体来看下Linkin的工作是如何做的。

2.1 知识图谱构建

研究的第一步是将历史工单转化为知识图谱。这里采用了两层图结构:

  • 工单内部树(Intra-issue Tree):以树的形式刻画单个工单内部的层级结构。
    • 节点代表工单的不同部分(如标题、描述、优先级等)
    • 边代表部分间的从属关系和类型
  • 工单间连接图(Inter-issue Graph):体现不同工单之间的联系。
    • 工单间存在显式链接(如"与工单A相关")
    • 也存在隐式关联(如工单标题的语义相似性)

知识图谱构建分两阶段进行:

(1)工单内解析:融合基于规则和基于LLM的方法,将纯文本工单转为结构化的树表示。

  • 对于预定义字段(如代码块),通过规则提取
  • 对于自由文本,则用LLM进行语义解析

(2)工单间连接:将各工单树整合为一张大图。

  • 工单间的显式链接可直接从工单定义中获取
  • 隐式关联则由工单标题的嵌入相似度决定,高于一定阈值的工单对即可建立连边

最后,研究者还对图谱节点的文本内容生成嵌入向量,便于后续的快速检索。

2.2 检索与问答

当用户提出新问题后,LinkedIn的智能客服系统将执行以下步骤:

(1)查询解析:借助LLM的强大语言理解能力,系统从用户描述中抽取关键实体(如故障现象、优先级)和潜在意图(如获取解决步骤)。

(2)子图检索:这一环节可细分为两个阶段。

  • 工单匹配:利用实体信息,通过嵌入向量的相似度匹配,得到与问题最相关的K个工单。这一匹配过程充分利用了图谱中的结构信息,忽略了文本分割的负面影响。
  • 子图提取:将用户意图从自然语言形式翻译为图数据库查询语句(如Cypher),从匹配的工单节点出发,沿着边的引导,高效提取最有价值的信息。

(3)回答生成:基于子图检索的结果,LLM作为解码器,组织生成最终答案。如遇查询困难,也可回退到纯文本检索的基线方法。

三、实验评估

研究团队在标准数据集上对算法进行了严格测试,并设置了合理的对照组。评估指标涵盖检索和问答两大类任务。

检索性能方面,引入知识图谱后,在平均倒数排名(MRR)上比传统方法高出77.6%,充分证明了结构化、关系化信息的巨大价值。

问答效果上,生成回答与标准答案的BLEU值提升了0.32,反映出答案质量的全面进步。这主要得益于知识图谱对原始工单的信息保全,避免了因分割而造成的内容损失。

更可喜的是,LinkedIn的客服团队已将该系统投入实际应用。使用新系统的小组处理每个问题的时间从7小时降至5小时,效率提升28.6%。足见这一技术革新给业务带来的切实益处。

四、创新点总结

本研究的核心创新,在于巧妙地将知识图谱引入大语言模型,构建了一套全新的客服问答范式。它以知识图谱为中心,既保留了工单的结构和联系,又能利用LLM的语义理解和生成能力,可谓优势互补、相得益彰。

与此同时,研究者在图谱构建、查询解析、子图提取等环节都采用了LLM,使得整个流程更加灵活、鲁棒,体现出领域适应性。这种全面拥抱LLM的做法堪称业界典范。

五、研究展望

尽管该研究在客服智能化上实现了新的突破,但仍存在进一步完善的空间。未来可考虑:

  • 开发自动化工具,从工单语料中自动提取知识图谱模板,减少人工依赖。
  • 探索知识图谱的动态更新机制,让系统能够从新工单和用户交互中持续学习,提升知识覆盖的时效性。
  • 将知识图谱+LLM的范式扩展到客服以外的领域,如金融、医疗等,进一步验证其普适价值。

六、总结

LinkedIn的这项研究堪称客服智能化的里程碑。它以知识图谱为桥梁,将大语言模型赋能到信息检索和问题解答的全流程,在提升匹配精准度、保证答案完整性的同时,也为LLM的产业应用开辟了新的道路。


关注↓回复【LeCun】,可下载LeCun哈佛演讲PPT,回复【论文】可直接获取本文分享论文。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/7392.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分享5款PDF编辑软件

PDF编辑不易,有需要的朋友可以试试这5款专业软件,每一个都能直接在PDF文件上编辑,不同的软件对PDF可编辑的范围不同,大家可以按需求选用。 1.edge浏览器 Edge浏览器不仅是浏览网页的得力助手,还悄然成为了轻量级PDF管…

2024蓝桥杯RSA-Theorem

方法1:直接使用工具yafu解题 yafu的使用方法 安装:解压后直接使用即可,在文件包内,执行命令终端,输入命令行 1、如果数比较小,进入该文件的目录后可以直接使用: yafu-x64 factor(n) 如果是powershell&…

Embeddings原理、使用方法、优缺点、案例以及注意事项

Embeddings是一种将高维数据映射到低维空间的技术,常用于处理自然语言处理(NLP)和计算机视觉(CV)任务。Embeddings可以将复杂的高维数据转换为低维稠密向量,使得数据可以更容易地进行处理和分析。本文将介绍…

张家界(24-17)

目录 总路线酒店:深圳北->张家界西(day1 07:14~13:45)张家界西(酒店)->张家界森林公园东门(day2 早上)张家界森林公园东门->张家界西(day2 19:48分的高铁)张家界…

leetcode-有重复数字的全排列-98

题目要求 思路 1.同【没有重复项的全排列-97】这个题一样,都是递归的题,区别在于这个可能会包含重复的数字,因此,不能只是简单的通过两个值是否相等然后用标志位标记,而是新增了一个数组,这个数组专门用于…

树和二叉树:二叉树的基本运算算法的实现

一.前言 当前版本仅供笔者复盘 二.二叉树 2.1题目 编写一个程序,实现二叉树的基本运算,具体要求如下:(指定示范实例1:图1。指定示范实例2:图2 ) 1,先序遍历输出该树&#xff08…

Qt QInputDialog详解

1.简介 QInputDialog是一个对话框类,用于从用户那里获取一个单一的值。这个值可以是字符串、数字、或者一个列表中的选项。QInputDialog提供了一个方便的方式来快速创建一个输入对话框,无需自己从头开始构建。 QInputDialog支持多种输入类型&#xff1…

【CTF Web】XCTF GFSJ0475 get_post Writeup(HTTP协议+GET请求+POST请求)

get_post X老师告诉小宁同学HTTP通常使用两种请求方法,你知道是哪两种吗? 解法 用 Postman 发送一个 GET 请求,提交一个名为a,值为1的变量。 http://61.147.171.105:65402/?a1用 Postman 发送一个 POST 请求,提交一个名为b,值为…

【吊打面试官系列】Java高并发篇 - 可以直接调用 Thread 类的 run ()方法么?

大家好,我是锋哥。今天分享关于 【可以直接调用 Thread 类的 run ()方法么?】面试题,希望对大家有帮助; 可以直接调用 Thread 类的 run ()方法么? 当然可以。但是如果我们调用了 Thread 的 run()方法,它的行…

VSCode通过SSH连接虚拟机Ubuntu失败

问题说明 最近使用VSCode通过SSH连接Ubuntu,通过VSCode访问Ubuntu进行项目开发,发现连接失败 在VSCode中进行SSH配置 这些都没有问题,但在进行连接时候出现了问题,如下: 出现了下面这个弹窗 解决方法 发现当…

【c1】数据类型,运算符/循环,数组/指针,结构体,main参数,static/extern,typedef

文章目录 1.数据类型:编译器(compiler)与解释器(interpreter),中文里的汉字和标点符号是两个字节,不能算一个字符(单引号)2.运算符/循环:sizeof/size_t3.数组…

在.NET架构的Winform项目中引入“异步编程”思想和技术

在.NET架构的Winform项目中引入“异步编程”思想和技术 一、异步编程引入(1)异步编程引入背景(2)异步编程程序控制流图(3)异步编程前置知识: 二、异步编程demo步骤1:步骤2&#xff1…

Kafka源码分析(五) - Server端 - 基于时间轮的延时组件

系列文章目录 Kafka源码分析-目录 一. 背景 Kafka内部涉及大量的"延时"操作,比如收到PRODUCE请求后可为副本等待一个timeout的时间后再响应客户端。 那我们讨论一个问题:Kafka为什么自己实现了一个延时任务组件,而不直接使用ja…

微信个人号开发api接口-视频号矩阵接口-VIdeosApi

友情链接:VIdeosApi 获取用户主页 接口地址: http://api.videosapi.com/finder/v2/api/finder/userPage 入参 { "appId": "{{appid}}", "lastBuffer": "", "toUserName": "v2_060000231003b2…

网络基础-华为VRP基础CLI操作

基本命令模式 华为设备的命令行模式包括用户视图和特权级模式。 用户视图(User View):这是用户登录到华为设备时默认进入的模式。在用户视图下,用户可以执行一些基本的查看命令,但不能进行设备配置或管理。提示符通常…

Golang | Leetcode Golang题解之第72题编辑距离

题目&#xff1a; 题解&#xff1a; func minDistance(word1 string, word2 string) int {m, n : len(word1), len(word2)dp : make([][]int, m1)for i : range dp {dp[i] make([]int, n1)}for i : 0; i < m1; i {dp[i][0] i // word1[i] 变成 word2[0], 删掉 word1[i], …

U盘提示“被写保护”无法操作处理怎么办?

今天在使用U盘复制拷贝文件时&#xff0c;U盘出现“U盘被写保护”提示&#xff0c;导致U盘明明有空闲内存却无法复制的情况。这种情况很常见&#xff0c;很多人在插入U盘到电脑后&#xff0c;会出现"U盘被写保护"的提示&#xff0c;导致无法进行删除、保存、复制等操…

Junit 测试中如何对异常进行断言

本文对在 Junit 测试中如何对异常进行断言的几种方法进行说明。 使用 Junit 5 如果你使用 Junit 5 的话&#xff0c;你可以直接使用 assertThrows 方法来对异常进行断言。 代码如下&#xff1a; Exception exception assertThrows(NumberFormatException.class, () -> {n…

pycharm关闭代码补全

pycharm关闭代码补全 文件-设置 编辑器-常规-代码补全-键入时显示建议

pyecharts绘制世界动态轨迹图(v0.5.X与v1.X版本对比)

一、问题引入 pyecharts官网&#xff1a;https://pyecharts.org/#/zh-cn/intro 在使用Geo或者GeoLines绘制动态轨迹图时&#xff0c;如果所选地区是中国的省份或者城市&#xff0c;是能够匹配到对应的经纬度并且正常绘制的&#xff1b;如果所选地区涉及到其他国家或者国外城市&…