解锁工业场景下的时序因果发现，清华阿里巴巴伯克利联合提出RealTCD框架：通过大语言模型提升发现质量！

DeepVisionary 每日深度学习前沿科技推送&顶会论文分享，与你一起了解前沿深度学习信息！

LLM-Enhanced Causal Discovery in Temporal Domain from Interventional Data

引言：AI在信息技术运营中的革命性应用

在现代信息技术运营（AIOps）的背景下，人工智能的引入不仅改变了我们管理和操作复杂信息系统的方式，更在根本上提升了操作效率和决策过程的质量。特别是在因果发现技术方面，AI的应用使得系统能够准确地识别出潜在的因果结构，从而有效地检测异常行为并确定系统故障的根本原因。例如，通过装备有AI的AIOps系统，可以有效地进行异常检测和根因分析等工作，极大地提高了工业操作的效率。

此外，时间因果发现作为一种新兴的方法，它直接基于观测数据识别变量之间的时间因果关系，这一技术的应用在近年来受到了极大的关注。它在动态系统中揭示因果依赖关系的潜力被广泛认可。例如，通过利用各种类型的干预数据，一些研究已经在时间因果关系的发现上取得了显著进展。

然而，现有的研究主要集中在合成数据集上，这些数据集严重依赖于干预目标，并忽略了真实世界系统中隐藏的复杂性和细微差别，未能在真实工业场景中进行因果发现。本文通过研究工业场景中的时间因果发现问题，解决了这一难题，提出了一种不依赖于干预目标的时间因果关系发现框架RealTCD，该框架能够利用系统中的文本信息发现时间因果关系。

在这里插入图片描述

论文概览

标题：LLM-Enhanced Causal Discovery in Temporal Domain from Interventional Data

作者：Peiwen Li, Xin Wang, Zeyang Zhang, Yuan Meng, Fang Shen, Yue Li, Jialong Wang, Yang Li, Wenwu Zhu

机构：

Department of Computer Science and Technology, BNRist, Tsinghua University, Beijing, China
Tsinghua-Berkeley Shenzhen Institute, Tsinghua University, Shenzhen, China
Alibaba Cloud, Hangzhou, China

链接：https://arxiv.org/pdf/2404.14786.pdf

研究背景与动机

在现代工业应用中，如信息技术运维（AIOps）领域，因果发现技术扮演着至关重要的角色。它帮助揭示复杂信息系统内部的依赖关系和影响力网络，为异常检测、根因分析等下游工业任务提供了不可或缺的洞察。例如，通过准确识别系统内的因果结构，AIOps系统能有效地检测异常行为并确定系统故障的根本原因，从而提升操作效率和改进决策过程。

尽管如此，现有的研究主要集中在使用合成数据集，并且这些方法往往依赖于干预目标，忽略了真实世界系统中隐藏的复杂性和细微差别，未能在实际工业场景中进行因果发现。本文针对工业场景中的时间因果发现问题，提出了一种新的框架——RealTCD，旨在不依赖于干预目标的情况下，利用系统中丰富的文本信息发现时间因果关系。

在这里插入图片描述

方法论介绍：RealTCD框架

1. 框架概述

RealTCD框架设计了两个主要模块：基于分数的时间因果发现（Score-based Temporal Causal Discovery）和LLM引导的元初始化（LLM-guided Meta Initialization）。这两个模块共同作用，利用大型语言模型（LLMs）处理文本信息，并从中提取元知识来初始化因果结构，进而优化和发现时间因果关系。

2. 基于分数的时间因果发现

此模块首先开发了一种基于分数的方法，通过策略性掩蔽和正则化学习因果关系。我们对邻接矩阵和干预家族进行正则化，并以联合方式优化它们，从而无需昂贵的干预目标即可应用于真实世界的工业场景。此外，该模块还引入了一种处理未知干预目标的方法，通过正则化最大对数似然分数来估计因果图。

3. LLM引导的元初始化

在此模块中，我们利用大型语言模型来处理文本类型的系统结构信息和领域知识，初步获取可能的因果关系作为发现过程的初始化。通过设计精确的提示（prompts），LLM能够输出可能的时间因果关系列表，这些关系随后被用来构建初始化的邻接矩阵𝑀𝐺₀。这一过程不仅引入了领域知识，还保持了时间因果发现的理论完整性。

4. 实验与验证

通过在模拟和真实世界数据集上的广泛实验，我们展示了RealTCD框架在发现时间因果结构方面相较于现有基线方法的优越性。深入分析还表明，我们的方法能够在不需要干预目标的工业场景中有效地发现潜在的时间因果关系。

总之，RealTCD框架通过结合先进的语言模型和因果发现技术，克服了传统方法在处理复杂实际应用中的限制，为时间因果关系的发现提供了一种新的强有力的工具。

在这里插入图片描述

实验设计与数据集说明

1. 实验设计

本研究提出了一个名为RealTCD的框架，旨在通过利用文本信息和无干预目标的时间数据来发现时间因果关系。该框架包括两个主要模块：基于分数的时间因果发现（Score-based Temporal Causal Discovery）和LLM引导的元初始化（LLM-guided Meta-Initialization）。

基于分数的时间因果发现：此模块处理观测数据和干预数据，通过放宽干预目标标签已知的条件，使算法更易于应用于实际场景。
LLM引导的元初始化：利用大型语言模型（LLM）处理文本类型的系统结构信息，并初步获取可能的因果关系作为发现过程的初始化。

在这里插入图片描述

2. 数据集说明

2.1 合成数据集

数据生成：首先，我们采样内部片段和跨时间片段的有向无环图（DAGs），遵循Erdős-Rényi模型，该模型允许我们通过设置每个边缘存在的概率来控制DAG的稀疏性。接着，为加权邻接矩阵采样边权重，确保因果影响非平凡。
数据合成：使用采样的加权图生成时间序列数据，符合标准的结构向量自回归（SVAR）模型。此外，从当前状态变量中采样干预目标，并创建完美的干预场景，切断这些目标节点与其父节点的依赖关系。

2.2 真实世界数据集

数据获取：数据来自阿里巴巴的一个特定数据中心，涵盖了2023年1月1日至5月1日的冷却系统监控数据，包括18个冷通道温度和20个空调供应温度的变量。
异常检测：通过学习历史数据的正常分布范围，使用𝑛-𝜎方法识别异常点。在检测到异常的20分钟内，每10秒采样一次数据。

实验结果与分析

1. 合成数据集上的结果

在合成数据集上，RealTCD方法在结构汉明距离（SHD）和结构干预距离（SID）两个指标上均显著优于基线模型。特别是在具有10个节点的数据集上，我们的方法表现出更明显的优势，表明当处理大量变量时，我们的方法优化更为集中和有效。

在这里插入图片描述

2. 真实世界数据集上的结果

在真实世界数据集上，RealTCD不仅学习到了更多正确的A2A（空调单元之间）和C2C（冷通道温度之间）因果关系，还有效避免了C2A（冷通道温度对空调供应温度）的错误因果关系。此外，通过LLM模块引入的先验领域知识有效地理解了变量之间的上下游关系，控制了下游变量对上游变量的影响，从而在优化过程中持续将C2A错误保持在零。

在这里插入图片描述

3. 深入分析

模块消融研究：我们对RealTCD的两个模块进行了消融研究。结果显示，去除干预模块后，性能显著下降，验证了从干预数据中发现时间因果关系的方法的有效性。
不同LLM模型的比较：在真实世界数据集上尝试了不同的LLM和提示技术，GPT-4在我们的实验中表现出更好、更稳定的结果。

总体而言，RealTCD在没有干预目标的设置中表现最佳，即使在已知目标设置中也有出色的表现。这进一步强调了在真实世界应用中使用基于未知干预目标的干预数据的重要性。
在这里插入图片描述

深入讨论：LLM在因果发现中的作用

在现代AI系统中，尤其是在处理复杂的信息系统操作（AIOps）时，因果发现技术发挥着至关重要的作用。通过精确地识别系统内部的因果结构，AIOps能够有效地检测异常行为并确定系统故障的根本原因，从而提高操作效率和改善决策过程。最近，大型语言模型（LLM）在因果发现领域显示出了巨大的潜力，尤其是在没有干预目标的情况下发现时间因果关系。

1. LLM的引入和作用

LLM的引入主要是为了处理和利用系统中的文本信息，这些文本信息在工业场景中复杂而丰富。通过LLM引导的元初始化（meta-initialization），可以从系统的文本信息中推断和初始化固有的因果结构，这一过程融合了领域知识，同时保持了时间因果发现的理论完整性。例如，在RealTCD框架中，LLM不仅处理文本数据以提取潜在的因果关系，还通过这些信息来指导数据驱动的优化过程，从而在没有干预目标的情况下发现时间因果关系。

2. LLM如何增强因果发现

LLM通过以下几种方式增强因果发现：

处理文本信息：LLM能够处理和分析大量的文本数据，这些数据通常包含有关系统操作的重要信息。这种能力使得LLM可以从文本中提取出有用的因果线索，为因果发现提供支持。
整合领域知识：LLM不仅能够理解用户输入的系统结构信息，还能整合嵌入其中的广泛领域知识，如系统的操作法则等。这种领域知识的整合对于理解复杂系统中的因果关系至关重要。
元初始化引导：通过LLM提取的元知识可以用于初始化因果发现过程中的模型，这有助于缩小搜索范围并提高发现的质量和稳定性。

面临的挑战与未来研究方向

尽管LLM在因果发现中展示了巨大的潜力，但在实际应用中仍面临一些挑战和限制。

1. 数据质量和完整性

现实世界中的文本数据可能存在噪声、不完整或缺失的问题，这些问题可能会影响LLM的性能。例如，系统日志可能不完整或格式不一致，这需要更精细的预处理和错误处理机制。

2. 模型的透明度和可解释性

虽然LLM能够处理复杂的文本并提取有用信息，但其决策过程的黑箱性质可能导致结果难以解释。提高模型的透明度和可解释性，是未来研究的一个重要方向。

3. 泛化能力和适应性

LLM在特定领域内表现出色，但其泛化到未知领域的能力仍有待观察。未来的研究需要探索如何提高LLM在不同领域和不同类型数据上的适应性和准确性。

4. 实时性和效率

在实际应用中，尤其是在需要实时反馈的场景中，LLM的计算复杂性可能是一个问题。研究如何优化LLM的计算效率，以适应实时或近实时的应用需求，是未来的一个重要研究方向。

总之，LLM在因果发现中提供了一种强大的工具，能够利用丰富的文本信息和领域知识来揭示复杂系统中的因果关系。通过解决上述挑战，未来的研究可以进一步提高LLM在实际应用中的效果和影响。

在这里插入图片描述

总结：RealTCD框架的创新性及其在工业AI中的应用前景

RealTCD框架是一种针对时间因果发现的创新方法，它结合了大型语言模型（LLMs）和无需干预目标的数据驱动优化，为工业人工智能领域提供了一种全新的解决方案。本章节将总结RealTCD框架的核心创新点及其在工业AI中的潜在应用前景。

1. 创新性分析

RealTCD框架的主要创新之处在于其结合了文本信息处理和因果关系发现的能力，特别是在不需要明确干预目标的情况下，通过以下两个主要模块实现对因果结构的识别和优化：

基于评分的时间因果发现（Score-based Temporal Causal Discovery）：该模块通过策略性掩蔽和正则化学习因果关系，允许模型在未知干预目标的情况下，使用观测数据和干预数据来推断因果结构。
LLM引导的元初始化（LLM-guided Meta Initialization）：利用大型语言模型处理文本信息，从系统中的文本数据提取潜在的因果结构作为初始化输入，这一过程整合了领域知识，增强了模型的理论完整性和实用性。

这种结合使用文本信息和数据驱动方法的策略，不仅提高了因果发现的准确性，也扩展了模型在实际工业场景中的应用范围。

2. 应用前景

RealTCD框架在工业AI中的应用前景广阔，尤其是在那些复杂系统的运维管理中，如智能运维（AIOps）。通过精确的因果关系发现，可以有效提升系统的异常检测、根因分析和决策制定等能力。此外，以下几个方面展示了RealTCD的潜在应用价值：