解锁工业场景下的时序因果发现,清华阿里巴巴伯克利联合提出RealTCD框架:通过大语言模型提升发现质量!

DeepVisionary 每日深度学习前沿科技推送&顶会论文分享,与你一起了解前沿深度学习信息!

LLM-Enhanced Causal Discovery in Temporal Domain from Interventional Data

引言:AI在信息技术运营中的革命性应用

在现代信息技术运营(AIOps)的背景下,人工智能的引入不仅改变了我们管理和操作复杂信息系统的方式,更在根本上提升了操作效率和决策过程的质量。特别是在因果发现技术方面,AI的应用使得系统能够准确地识别出潜在的因果结构,从而有效地检测异常行为并确定系统故障的根本原因。例如,通过装备有AI的AIOps系统,可以有效地进行异常检测和根因分析等工作,极大地提高了工业操作的效率。

此外,时间因果发现作为一种新兴的方法,它直接基于观测数据识别变量之间的时间因果关系,这一技术的应用在近年来受到了极大的关注。它在动态系统中揭示因果依赖关系的潜力被广泛认可。例如,通过利用各种类型的干预数据,一些研究已经在时间因果关系的发现上取得了显著进展。

然而,现有的研究主要集中在合成数据集上,这些数据集严重依赖于干预目标,并忽略了真实世界系统中隐藏的复杂性和细微差别,未能在真实工业场景中进行因果发现。本文通过研究工业场景中的时间因果发现问题,解决了这一难题,提出了一种不依赖于干预目标的时间因果关系发现框架RealTCD,该框架能够利用系统中的文本信息发现时间因果关系。

在这里插入图片描述

论文概览

标题:LLM-Enhanced Causal Discovery in Temporal Domain from Interventional Data

作者:Peiwen Li, Xin Wang, Zeyang Zhang, Yuan Meng, Fang Shen, Yue Li, Jialong Wang, Yang Li, Wenwu Zhu

机构

  • Department of Computer Science and Technology, BNRist, Tsinghua University, Beijing, China
  • Tsinghua-Berkeley Shenzhen Institute, Tsinghua University, Shenzhen, China
  • Alibaba Cloud, Hangzhou, China

链接:https://arxiv.org/pdf/2404.14786.pdf

研究背景与动机

在现代工业应用中,如信息技术运维(AIOps)领域,因果发现技术扮演着至关重要的角色。它帮助揭示复杂信息系统内部的依赖关系和影响力网络,为异常检测、根因分析等下游工业任务提供了不可或缺的洞察。例如,通过准确识别系统内的因果结构,AIOps系统能有效地检测异常行为并确定系统故障的根本原因,从而提升操作效率和改进决策过程。

尽管如此,现有的研究主要集中在使用合成数据集,并且这些方法往往依赖于干预目标,忽略了真实世界系统中隐藏的复杂性和细微差别,未能在实际工业场景中进行因果发现。本文针对工业场景中的时间因果发现问题,提出了一种新的框架——RealTCD,旨在不依赖于干预目标的情况下,利用系统中丰富的文本信息发现时间因果关系。

在这里插入图片描述

方法论介绍:RealTCD框架

1. 框架概述

RealTCD框架设计了两个主要模块:基于分数的时间因果发现(Score-based Temporal Causal Discovery)和LLM引导的元初始化(LLM-guided Meta Initialization)。这两个模块共同作用,利用大型语言模型(LLMs)处理文本信息,并从中提取元知识来初始化因果结构,进而优化和发现时间因果关系。

2. 基于分数的时间因果发现

此模块首先开发了一种基于分数的方法,通过策略性掩蔽和正则化学习因果关系。我们对邻接矩阵和干预家族进行正则化,并以联合方式优化它们,从而无需昂贵的干预目标即可应用于真实世界的工业场景。此外,该模块还引入了一种处理未知干预目标的方法,通过正则化最大对数似然分数来估计因果图。

3. LLM引导的元初始化

在此模块中,我们利用大型语言模型来处理文本类型的系统结构信息和领域知识,初步获取可能的因果关系作为发现过程的初始化。通过设计精确的提示(prompts),LLM能够输出可能的时间因果关系列表,这些关系随后被用来构建初始化的邻接矩阵𝑀𝐺₀。这一过程不仅引入了领域知识,还保持了时间因果发现的理论完整性。

4. 实验与验证

通过在模拟和真实世界数据集上的广泛实验,我们展示了RealTCD框架在发现时间因果结构方面相较于现有基线方法的优越性。深入分析还表明,我们的方法能够在不需要干预目标的工业场景中有效地发现潜在的时间因果关系。

总之,RealTCD框架通过结合先进的语言模型和因果发现技术,克服了传统方法在处理复杂实际应用中的限制,为时间因果关系的发现提供了一种新的强有力的工具。

在这里插入图片描述

实验设计与数据集说明

1. 实验设计

本研究提出了一个名为RealTCD的框架,旨在通过利用文本信息和无干预目标的时间数据来发现时间因果关系。该框架包括两个主要模块:基于分数的时间因果发现(Score-based Temporal Causal Discovery)和LLM引导的元初始化(LLM-guided Meta-Initialization)。

  • 基于分数的时间因果发现:此模块处理观测数据和干预数据,通过放宽干预目标标签已知的条件,使算法更易于应用于实际场景。
  • LLM引导的元初始化:利用大型语言模型(LLM)处理文本类型的系统结构信息,并初步获取可能的因果关系作为发现过程的初始化。

在这里插入图片描述

2. 数据集说明

2.1 合成数据集
  • 数据生成:首先,我们采样内部片段和跨时间片段的有向无环图(DAGs),遵循Erdős-Rényi模型,该模型允许我们通过设置每个边缘存在的概率来控制DAG的稀疏性。接着,为加权邻接矩阵采样边权重,确保因果影响非平凡。
  • 数据合成:使用采样的加权图生成时间序列数据,符合标准的结构向量自回归(SVAR)模型。此外,从当前状态变量中采样干预目标,并创建完美的干预场景,切断这些目标节点与其父节点的依赖关系。
2.2 真实世界数据集
  • 数据获取:数据来自阿里巴巴的一个特定数据中心,涵盖了2023年1月1日至5月1日的冷却系统监控数据,包括18个冷通道温度和20个空调供应温度的变量。
  • 异常检测:通过学习历史数据的正常分布范围,使用𝑛-𝜎方法识别异常点。在检测到异常的20分钟内,每10秒采样一次数据。

实验结果与分析

1. 合成数据集上的结果

在合成数据集上,RealTCD方法在结构汉明距离(SHD)和结构干预距离(SID)两个指标上均显著优于基线模型。特别是在具有10个节点的数据集上,我们的方法表现出更明显的优势,表明当处理大量变量时,我们的方法优化更为集中和有效。

在这里插入图片描述

2. 真实世界数据集上的结果

在真实世界数据集上,RealTCD不仅学习到了更多正确的A2A(空调单元之间)和C2C(冷通道温度之间)因果关系,还有效避免了C2A(冷通道温度对空调供应温度)的错误因果关系。此外,通过LLM模块引入的先验领域知识有效地理解了变量之间的上下游关系,控制了下游变量对上游变量的影响,从而在优化过程中持续将C2A错误保持在零。

在这里插入图片描述

3. 深入分析

  • 模块消融研究:我们对RealTCD的两个模块进行了消融研究。结果显示,去除干预模块后,性能显著下降,验证了从干预数据中发现时间因果关系的方法的有效性。
  • 不同LLM模型的比较:在真实世界数据集上尝试了不同的LLM和提示技术,GPT-4在我们的实验中表现出更好、更稳定的结果。

总体而言,RealTCD在没有干预目标的设置中表现最佳,即使在已知目标设置中也有出色的表现。这进一步强调了在真实世界应用中使用基于未知干预目标的干预数据的重要性。
在这里插入图片描述

深入讨论:LLM在因果发现中的作用

在现代AI系统中,尤其是在处理复杂的信息系统操作(AIOps)时,因果发现技术发挥着至关重要的作用。通过精确地识别系统内部的因果结构,AIOps能够有效地检测异常行为并确定系统故障的根本原因,从而提高操作效率和改善决策过程。最近,大型语言模型(LLM)在因果发现领域显示出了巨大的潜力,尤其是在没有干预目标的情况下发现时间因果关系。

1. LLM的引入和作用

LLM的引入主要是为了处理和利用系统中的文本信息,这些文本信息在工业场景中复杂而丰富。通过LLM引导的元初始化(meta-initialization),可以从系统的文本信息中推断和初始化固有的因果结构,这一过程融合了领域知识,同时保持了时间因果发现的理论完整性。例如,在RealTCD框架中,LLM不仅处理文本数据以提取潜在的因果关系,还通过这些信息来指导数据驱动的优化过程,从而在没有干预目标的情况下发现时间因果关系。

2. LLM如何增强因果发现

LLM通过以下几种方式增强因果发现:

  • 处理文本信息:LLM能够处理和分析大量的文本数据,这些数据通常包含有关系统操作的重要信息。这种能力使得LLM可以从文本中提取出有用的因果线索,为因果发现提供支持。
  • 整合领域知识:LLM不仅能够理解用户输入的系统结构信息,还能整合嵌入其中的广泛领域知识,如系统的操作法则等。这种领域知识的整合对于理解复杂系统中的因果关系至关重要。
  • 元初始化引导:通过LLM提取的元知识可以用于初始化因果发现过程中的模型,这有助于缩小搜索范围并提高发现的质量和稳定性。

面临的挑战与未来研究方向

尽管LLM在因果发现中展示了巨大的潜力,但在实际应用中仍面临一些挑战和限制。

1. 数据质量和完整性

现实世界中的文本数据可能存在噪声、不完整或缺失的问题,这些问题可能会影响LLM的性能。例如,系统日志可能不完整或格式不一致,这需要更精细的预处理和错误处理机制。

2. 模型的透明度和可解释性

虽然LLM能够处理复杂的文本并提取有用信息,但其决策过程的黑箱性质可能导致结果难以解释。提高模型的透明度和可解释性,是未来研究的一个重要方向。

3. 泛化能力和适应性

LLM在特定领域内表现出色,但其泛化到未知领域的能力仍有待观察。未来的研究需要探索如何提高LLM在不同领域和不同类型数据上的适应性和准确性。

4. 实时性和效率

在实际应用中,尤其是在需要实时反馈的场景中,LLM的计算复杂性可能是一个问题。研究如何优化LLM的计算效率,以适应实时或近实时的应用需求,是未来的一个重要研究方向。

总之,LLM在因果发现中提供了一种强大的工具,能够利用丰富的文本信息和领域知识来揭示复杂系统中的因果关系。通过解决上述挑战,未来的研究可以进一步提高LLM在实际应用中的效果和影响。

在这里插入图片描述

总结:RealTCD框架的创新性及其在工业AI中的应用前景

RealTCD框架是一种针对时间因果发现的创新方法,它结合了大型语言模型(LLMs)和无需干预目标的数据驱动优化,为工业人工智能领域提供了一种全新的解决方案。本章节将总结RealTCD框架的核心创新点及其在工业AI中的潜在应用前景。

1. 创新性分析

RealTCD框架的主要创新之处在于其结合了文本信息处理和因果关系发现的能力,特别是在不需要明确干预目标的情况下,通过以下两个主要模块实现对因果结构的识别和优化:

  • 基于评分的时间因果发现(Score-based Temporal Causal Discovery):该模块通过策略性掩蔽和正则化学习因果关系,允许模型在未知干预目标的情况下,使用观测数据和干预数据来推断因果结构。
  • LLM引导的元初始化(LLM-guided Meta Initialization):利用大型语言模型处理文本信息,从系统中的文本数据提取潜在的因果结构作为初始化输入,这一过程整合了领域知识,增强了模型的理论完整性和实用性。

这种结合使用文本信息和数据驱动方法的策略,不仅提高了因果发现的准确性,也扩展了模型在实际工业场景中的应用范围。

2. 应用前景

RealTCD框架在工业AI中的应用前景广阔,尤其是在那些复杂系统的运维管理中,如智能运维(AIOps)。通过精确的因果关系发现,可以有效提升系统的异常检测、根因分析和决策制定等能力。此外,以下几个方面展示了RealTCD的潜在应用价值:

  • 增强的操作效率:准确的因果关系识别可以帮助企业更快地识别和解决系统问题,减少停机时间,提高生产效率。
  • 改进的决策制定:通过理解变量间的因果关系,企业可以更有效地规划资源分配和优化操作策略,从而做出更有数据支持的决策。
  • 跨领域应用:RealTCD的方法不限于特定行业,可广泛应用于金融、医疗、社会科学等多个领域,帮助各行各业解决因果关系复杂且难以直接观测的问题。

总之,RealTCD框架通过其创新的技术方法和在实际工业应用中表现出的潜力,展现了在现代AI和机器学习领域中推动时间因果发现前进的可能性。随着技术的进一步发展和优化,预计RealTCD将在未来的工业应用中扮演更加重要的角色。

关注DeepVisionary 了解更多深度学习前沿科技信息&顶会论文分享!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/6160.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

远程链接linux

远程连接 ssh 远程登录操作,ssh会对用用户进行身份信息的验证,会对两台主机之间发通信数据进行加密 安装 ssh 远程登录的服务端 yum install -y openssh-server启动 ssh 服务 systemctl start ssh.service 关闭 ssh 服务 systemctl stop ssh.service …

java发送请求2次开发-get请求json

因为你请求参数不为空,接口都会把这个参数带上 所以借鉴HttpPost类 继承这个类, 这个类是可以带消息的 httpgetwithentity,httpget请求带上消息 复写 构造方法复制过来进行使用 二次开发类让其get请求时可以发送json

基于大爆炸优化算法的PID控制器参数寻优matlab仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述 基于大爆炸优化算法的PID控制器参数寻优matlab仿真。对比优化前后的PID控制输出。 2.系统仿真结果 3.核心程序与模型 版本:MATLAB2022a .....................…

测试腾讯云的高防CC抵御了攻击

网站需要安装防止CC攻击,因为CC攻击是一种常见的网络攻击,它会对网站造成严重的影响。 CC攻击(Cybercrime Control)是指向网站发起大量虚假请求的攻击,目的是使网站的资源耗尽,无法正常运行。CC攻击与DDoS…

python-pytorch官方示例Generating Names with a Character-Level RNN的部分理解0.5.03

pytorch官方示例Generating Names with a Character-Level RNN的部分理解 模型结构功能关键技术模型输入模型输出预测实现 模型结构 功能 输入一个类别名和一个英文字符,就可以自动生成这个类别,且以英文字符开始的姓名 关键技术 将字符进行one-hot编…

通过符号程序搜索提升prompt工程

原文地址:supercharging-prompt-engineering-via-symbolic-program-search 通过自动探索​​大量提示变体来找到更好的提示 2024 年 4 月 22 日 众所周知,LLMs的成功在很大程度上仍然取决于我们用正确的指导和例子来提示他们的能力。随着新一代LLMs变得越…

JAVA面试题---WEB部分

网络通讯 TCP与UDP TCP(Transmission Control Protocol 传输控制协议)是一种面向连接(连接导向)的、 可靠的、 基于 IP 的传输层协议。 UDP 是 User Datagram Protocol 的简称,中文名是用户数据报协议,是 OSI 参考模 型中的传输层协议,它是…

【杂谈】记录代码中遇到的问题(持续更新中)

写代码时经常遇到各种各样的bug,有时候很难发现,下面是我自己的一些见解 1.数组开在全局区和栈区所能开到的最大范围是不一样的 main函数里的数组,范围最大可以开到1e5 全局区的函数最大可以开到1e8的范围 2.#define int long long 写#dein…

【Linux】常用命令大揭秘,轻松驾驭终端世界

常见命令大全 概念1.1:开源、闭源的区别1.2:应用场景 发行版XShell3.1:使用XShell登入主机3.2:普通用户的增加、删除3.3:查看账户的信息whoami指令who指令 文件和目录基本命令4.1:指令的周边知识文件路径Li…

css响应式布局左、右上、右中布局

一、布局效果 二、布局代码 <div class"parent"><div class"left">菜单</div><div class"right"><div class"right-top">顶部导航</div><div class"right-content"></div>…

一个C++小程序调试过程记录

Top 20 C Projects With Source Code [2024 Update]https://www.interviewbit.com/blog/cpp-projects/ 这个网页有一些简单的C程序的源码&#xff0c;闲来无事&#xff0c;把第一个程序&#xff08;Bookshop Management System Using C&#xff09;的源码下载了下来。 源文件…

Mybatis进阶(映射关系多对一 )

文章目录 1.需求分析2.应用实例&#xff08;xml配置&#xff09;1.数据表设计2.entity设计&#xff08;不要使用toString会栈溢出&#xff09;1.Pet.java2.User.java 3.编写Mapper1.PetMapper.java2.UserMapper.java 4.编写Mapper.xml1.UserMapper.xml2.PetMapper.xml 5.测试Us…

基于缓存注解的时间戳令牌防重复提交设计

文章目录 一&#xff0c;概述二&#xff0c;实现过程1、引入pom依赖2、定义缓存管理3、时间戳服务类4、模拟测试接口 三&#xff0c;测试过程1&#xff0c; 模拟批量获取2&#xff0c; 消费令牌 四&#xff0c;源码放送五&#xff0c;优化方向 一&#xff0c;概述 API接口由于…

uniapp 异步加载级联选择器(Cascader,data-picke)

目录 Props 事件方法 inputChange事件回调参数说明&#xff1a; completeChange事件回调参数说明&#xff1a; temList 属性Object参数说明 defaultItemList 属性Object参数说明 在template中使用 由于uniapp uni-ui的data-picke 不支持异步作者自己写了一个 插件市场下…

vue3 ——笔记 (表单输入,监听器)

表单输入 在Vue 3中&#xff0c;v-model指令的用法稍有不同于Vue 2。在Vue 3中&#xff0c;v-model指令实际上是一个语法糖&#xff0c;它会自动将value属性和input事件绑定到组件或元素上&#xff0c;以实现双向数据绑定。 在自定义组件中使用v-model时&#xff0c;需要在组…

数组的扩容与缩容

数组的扩容与缩容 文章目录 数组的扩容与缩容数组的扩容内存分析 数组的缩容内存分析内存分析 数组的扩容 数组扩容是指当原有数组的空间不足以容纳更多的元素时&#xff0c;创建一个新的、长度更大的数组&#xff0c;并将原数组中的元素复制到新数组中&#xff0c;然后更新原…

Word文件后缀

Word文件后缀 .docx文件为Microsoft Word文档后缀名&#xff0c;基于XML文件格式 .dotm为Word启用了宏的模板 .dotx为Word模板 .doc为Word97-2003文档&#xff0c;二进制文件格式 参考链接 Word、Excel 和 PowerPoint 的文件格式参考 Learn Microsoft

类和对象【四】运算符重载

文章目录 运算符重载的概念运算符重载&#xff08;函数&#xff09;返回值类型&#xff1a;任意类型函数名&#xff1a;operator已有操作符 运算符重载&#xff08;函数&#xff09;的特点和注意点3个比较特殊的运算符重载赋值运算符&#xff08;&#xff09;重载返回值类型和返…

嵌入式开发四:STM32 基础知识入门

为方便更好的学习STM32单片机&#xff0c;本篇博客主要总结STM32的入门基础知识&#xff0c;重点在于理解寄存器以及存储器映射和寄存器映射&#xff0c;深刻体会STM32是如何组织和管理庞大的寄存器&#xff0c;从而提高开发效率的&#xff0c;为后面的基于标准库的开发做好铺垫…

MySQL 8.4 版本(LTS) 发布,一睹为快

前言 Oracle 前几天发布了 MySQL 8.4 版本(LTS)&#xff0c; 该版本是创新版的第一个长期支持版本。详细规划&#xff0c;请移步 技术译文 | 一文了解 MySQL 全新版本模型 关于 MySQL 的版本发布规划 Oracle MySQL 官方开发团队推出的新版本将过渡到新的 MySQL 版本模型。MyS…