[WWW2024]轻量数据依赖的异常检测重训练方法LARA

开篇

近日,由阿里云计算平台大数据基础工程技术团队主导,与浙江大学合作的论文《LARA: ALight and Anti-overfitting Retraining Approach for Unsupervised Time Series Anomaly Detection 》被WWW2024收录,该方法解决了云服务正常模式随时间不断变化,且在变化初期观测数据数量不足以支撑模型训练的问题。目前LARA仅使用1个包含40个时间片的样本重训练即可达到与目前最好方法使用充足数据重训练的异常检测精度。

背景

目前,可以解决正常模式更替变化的方法主要有迁移学习、元学习、基于信号处理的方法。但同时他们也存在一些弊端,并不完全适配当前问题:

  1. 迁移学习:迁移学习未考虑本问题中多个历史正常模式之间存在的时序关系。迁移学习把source domain的模型迁移到target domain中。其中,source domain和target domain的数据是对不同对象、同一任务的观测。而本问题是对同一对象同一任务在不同时刻的观测,即多个历史正常模式之间存在时序关系,离得近的正常模式对当前正常模式更具指导意义。

  2. 元学习:元学习同样未考虑历史正常模式之间的时序关系,同时,需要存储大量的历史数据。

  3. 基于信号处理的方法:这类方法推理阶段时间开销太大,无法在流量峰值处进行实时异常检测。

挑战

云服务环境多变,这导致异常检测模型需要进行频繁的重训练。频繁的重训练有以下几个问题:

  1. 过拟合:在分布变化的初期,新分布的观测数据太少,对于大多数基于深度学习的神经网络,容易陷入过拟合。

  2. 巨大训练开销:频繁重训练模型,会带来巨大的训练开销。

破局

因此,我们提出方法LARA解决上述问题。为了解决重训练新观测数据不足的问题,我们提出反刍模块,该模块使用老模型恢复历史分布中与新观测数据相似的数据,并使用历史数据与新观测数据一起估计每一个新观测数据的隐藏状态z。为了解决重训练计算开销大的问题,我们使用映射函数M_z和M_x分别把老模型输出的隐藏状态和重构数据映射为当前分布的隐藏状态估计值与新观测数据,并数学证明了映射函数令映射误差最小的最优形式为线性,极大降低了重训练开销。更进一步,我们根据M_z 与M_x的形式,提出一种相应的损失函数设计范式,可以保证重训练问题是一个凸问题,具有唯一全局最优解,从而保证较快的收敛速率,降低重训练计算开销,避免陷入过拟合。

应用

现已将LORA方法应用到飞天大数据AI管控平台ABM的异常检测算法服务中,减少异常检测算法的训练开销,辅助大数据平台进行异常的及时发现。

论文标题: LARA: ALight and Anti-overfitting Retraining Approach for Unsupervised Time Series Anomaly Detection

论文作者:陈飞佚,秦臻,周孟初,张颖莹,邓水光,范伦挺,庞观松,文青松

论文pdf链接:https://arxiv.org/abs/2310.05668

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/22767.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

探索AIGC降重工具:确保论文原创性的新策略

如何有效降低AIGC论文的重复率,也就是我们说的aigc如何降重?AIGC疑似度过高确实是个比较愁人的问题。如果你用AI帮忙写了论文,就一定要在交稿之前做一下AIGC降重的检查。一般来说,如果论文的AIGC超过30%,很可能会被判定…

申请医疗设备注册变更时,需要补充考虑网络安全的情况有哪些?

在申请医疗器械设备注册变更时,需要补充网络安全的情况主要包括以下几点: 网络安全功能更新:如果医疗器械的自研软件发生网络安全功能更新,或者合并网络安全补丁更新的情形,需要单独提交一份自研软件网络安全功能更新…

#02 安装指南:如何配置Stable Diffusion环境

文章目录 前言前置条件第1步:安装Python和PIP第2步:创建虚拟环境第3步:安装PyTorch和CUDA第4步:安装Stable Diffusion相关库第5步:测试环境结论 前言 在之前的文章中,我们介绍了Stable Diffusion基础入门和…

【ARFoundation自学04】AR Tracked Image 图像追踪识别

1.添加组件 2.创建图像识别库 3.创建识别后追踪的物体(UI、模型等)

Java驱动的工程项目管理系统:实现高效协作与精准管理

在工程行业的现代管理实践中,有效地协同工作和信息共享对于提高工作效率和降低成本至关重要。本文将深入探讨一款基于Java技术的工程项目管理系统,该系统采用前后端分离的架构,功能全面,旨在满足不同角色的需求,从项目…

go语言切片去重的3种方式总结

go语言中的切片是使用非常频繁的一个数据结构,对于他的去重,我们可以有以下3种方式 1. 切片slice去重 利用map的key不能重复的特性append函数 一次for循环搞定 这个模式时间复杂度最低,效率最高, 如果go版本大于1.21推荐使用这…

PlugLink与RPA的完美结合:打造智能自动化工作流(附源码)

PlugLink与RPA的完美结合:打造智能自动化工作流 自动化技术已经成为提高效率和减少错误的关键手段。两种主要的自动化技术——PlugLink和RPA(机器人流程自动化)——各有特色。本文将详细探讨PlugLink与RPA的不同之处,并介绍它们如…

软件测试需求管理指南规范(Word原件,项目管理全资料)

3 测试需求 3.1 测试范围 3.2 测试目标 4 测试需求的现状 5 测试需求的内容 5.1 主体内容 5.2 管理内容 6 测试需求的制定 6.1 需求信息来源 6.2 需求分析 6.2.1 功能性需求 6.2.2 系统功能需求 6.2.3 界面需求 6.2.4 安装需求 6.2.5 业务需求 6.2.6 非功能性需求 6.2.7 性能需…

ai怎么导出jpg?让我告诉你答案【详】

在设计和创意工作中,Adobe Illustrator(AI)是一款不可或缺的工具。然而,当我们将设计作品导出为JPG格式时,可能会遇到一些问题。ai怎么导出jpg?如何确保导出的JPG图片保持高质量?接下来&#xf…

异步通知驱动实例

目录 异步通知驱动功能的优点 异步通知测试程序: 异步驱动程序 异步通知驱动功能的优点 提高性能:通过允许应用程序在等待操作完成时执行其他任务,可以提高应用程序的整体性能。改善用户体验:应用程序可以保持响应性,用户界面可以流畅地更新,提供更好的用户体验。资源…

【Js】深入浅出的js for循环 for loop以及闭坑指南

在JavaScript中使用forEach循环来删除数组中的特定元素可能会导致一些问题,因为forEach不允许你在迭代过程中修改数组的长度。 这会导致意外的行为,例如跳过元素或错误地索引。因此,建议使用其他方法来安全地删除数组中的元素。 存在的问题 1…

php质量工具系列之phpmd

PHPMD PHP Mess Detector 它是PHP Depend的一个衍生项目,用于测量的原始指标。 PHPMD所做的是,扫描项目中可能出现的问题如: 可能的bug次优码过于复杂的表达式未使用的参数、方法、属性 PHPMD是一个成熟的项目,它提供了一组不同的…

HarmonyOS NEXT Push接入

接入HarmonyOS NEXT Push 推送功能,相比于 Android 真的是简单太多。不再需要适配接入各个厂家的推送 SDK,真是舒服。 1.开通推送服务与配置Client ID 1.1 创建应用获取Client ID 按照官方文档来就可以了:https://developer.huawei.com/consumer/cn/doc/harmonyos-guides…

常用的接口测试工具

大家好,当谈到软件开发中的质量保证时,接口测试无疑是至关重要的一环。在当今快节奏的开发环境中,确保应用程序的各个组件之间的交互正常运作是至关重要的。而接口测试工具则成为了开发人员和测试人员的得力助手,帮助他们有效地测…

关于抽样检验的案例来说明95%置信区间

抽样检验是统计学中常用的一种方法,通过分析样本数据来推断总体特征。95%置信区间在抽样检验中扮演着重要角色,因为它提供了对总体参数估计的可靠性区间。下面是一个具体的案例来说明如何使用95%置信区间进行抽样检验。 案例背景 假设一家制药公司正在…

LLM推理加速原理(一)

1.大语言模型的基本结构 transfomer block: 输入--->正则化-->qkv三个矩阵层(映射到三个不同空间中)---->q,k,v之后self attention进行三0合一---->线性映射,正则化。 2.大语言模型的推理 目前主流的语言大模型都采用decoder-only的结构,其推理过程由两部分…

YOLOv3训练自己的数据集

简要笔记 一、数据标注 1.安装好labelme工具 2.标注自己的数据,拿到json文件 二、编辑训练代码所需要的配置文件 config文件夹,create_custom_model.sh (参数:类别个数) 自动生成网络cfg文件 三、标签格式转换 1.la…

基于R语言的糖尿病检测模型准确率97%

使用R语言构建糖尿病检测模型的示例。我们将使用常见的机器学习算法(如逻辑回归)来构建模型,并使用Pima Indians Diabetes数据集进行训练和评估。 1. 安装和加载必要的包 首先,我们需要安装并加载必要的R包。我们将使用caret包来进行数据预处理、模型训练和评估。 # 安装…

辞职后,如何理性面对公司的挽留?我的职场选择之路

辞职后,面对公司的挽留,你会决定留下还是离开呢?这是一个让人犹豫不决的问题。 让我们来分析一下个人在职场中的价值和期望。每个人都有自己的职业规划和发展目标,这是非常正常的。在工作中,我们希望自己能够得到充分的…

常规操作-ArcGIS常用标注技巧

常规操作-ArcGIS常用标注技巧 1、简单的"&“符号:多字段表达只需要用”&"符号,多个字段之间需要空格,空格符号需要加双引号。 表达式为: [字段] & " " & [字段] 2、“VBnewline"应用…