2024 CCF国际AIOps挑战赛·赛题与赛制解读

本文根据本届挑战赛程序委员会主席、中国科学院计算机网络信息中心副研究员裴昶华在2024 CCF国际AIOps挑战赛线下宣讲会上为《2024 CCF国际AIOps挑战赛·赛题与赛制》的分享整理而成,全文分为挑战赛背景介绍、题目简介、流程说明和评分规则等部分,最后简要介绍了参考文献,供选手参考。

本届挑战赛背景介绍

众所周知,运维领域本身很多的行业特点,比如存在时序指标、日志、调用等多模态数据,对实时数据的要求比较高,数据之间的依赖关系复杂。例如,下图左下角是一个电商系统的样例,可以看到它的节点依赖情况。另外,还存在着领域知识以及多样化的下游场景。所以,当我们真正去做智能运维的时候就会有很多的小模型,需要解决很多的问题,也面临了很多的挑战。

但是,大模型出现之后给智能运维带来了一些新的不同和新的变化。这里,我总结的大语言模型的三个特点:

  • 第一个特点是博闻强记,指的是所有大模型见过的知识,不论或多或少或生僻,它都能够很好地记住,能够准确的复述回答。
  • 第二个特点是文采飞扬,指的是大模型能够基于以前见过的知识,比较好地迁移到新的场景里,这种zero
    shot的能力其实对运维来人员来说是非常必要的。
  • 最后,也是大模型最重要的一个能力,我把它总结为浮想联翩,指的是大模型不光能做问答,还能够调用很多的小模型,很多的工具。我们之前在很多年中积累的一些工具,它都能够很好地调用起来。

这里,我们能够看到在“大模型时代的AIOps”有一些怎样的前景。

在这里插入图片描述

在国内进行探索的时候,其实国外一些非常著名的智能运维公司,已经开始把大模型技术应用到了智能运维。比如DATADOG,利用大模型去构建自动化的运维工作流,去做问题代码的fix。像dynatrace去做Query2SQL,用大模型去写SQL的语句,做日常的异常预警。splunk是一个日志的公司,它主要用大模型去做日志的异常检测。BigPanda做告警生成。这些不是方案,是已经在它们的公司里真实使用起来的。

大家都很关心在大模型时代AIOps将会怎样发展,这里总结了”大模型时代AIOps”的几个要素:

首先,通识大语言模型做为L0层是必不可少的。

其次,取决于场景里面的数据,如果说数据质量比较好,比较容易获取的话,我们也可以去训练运维的大语言模型,主要是解决开源大模型无法理解私域场景里面的“黑话”。

另外,就是RAG技术。我们可能没有足够的数据去训练模型,那就可以用这种外挂的方式跟大模型结合起来,用大模型的自然语言能力结合私域文档去做知识问答。

此外,前面也提到智能运维领域与语言大模型不同,时序数据其实是非常重要的一个模态。因为就需要时空大模型,或者基于时空小模型的智能体,把它编排起来去做持续的异常检测。

岗位Copilot:如上图是用大模型生成的,虽然大模型不能完全代替人,但是以后的每一个运维人员可能都会辅助一个小的机器人助手。比如做数据库的,可能有一个DBA Copilot,做应用的有Application Copilot。所有这些小的机器人作为岗位智能体,辅助人来提升运维效率,节省人力成本。

最后,人机协同也是必不可少的。在以后的智能运维里面可能个人不做具体的,例如拉曲线、看曲线、检测曲线的工作,而更多是基于智能体给到的信息去做决策。

这是大模型时代的AIOps要素,目前如上的各个方面都有很多的研究在同步推进。本届挑战赛主要针对其中的RAG 技术做重点突破。

在这里插入图片描述

为什么要选择RAG呢?在一年前可能大很多人都会在聊到底应该训练大模型,还是利用RAG技术,但时至今日已经达成共识,RAG技术是未来垂直领域应用的关键。如上图右下角可见,有88%的人认为RAG技术是未来大模型应该提供的API必须要具备的。

RAG具备有很多的优点。对于长尾的知识、私有的知识能够应用得很好。比如说之前有公司表示,说不想把其私域数据训练到模型里面,因为一旦训练到模型里面大家都能够access到它的data,权限不好控制。那怎么解决?就是把具有不同权限的文档结合RAG构建不同的向量数据库。另外,大模型训练需要的时间比较长,比如目前的GPT4还停留在去年6月份,所以说它知识的更新换代是跟不上的,但是RAG它就没有这个缺点。

在这里插入图片描述

基于这些优点的话,目前RAG大概分为以下几个模块,每一个模块的优化都可能影响到最后的问答的效果。虽然现在RAG的框架非常多,但不管这个框架如何其实都离不开如下六大模块。第一大块是整体数据,也就是本次挑战赛中兴通讯提供的文档。第二,我们会把这些文档进行分块。第三是建立向量数据库,向量数据库以Embedding为key,以文本框为value。第四,当用户的请求来了之后,我们会把用户的请求变成向量,去向量数据库里面检索跟它相近相关的文本块。第五,检索出的文本块进行排序和后处理。最后,结合大模型进行回答组装并生成相关的引用,生成相关的引用能够使内容更可信。

赛题介绍

前面整体介绍了大模型的必要性以及RAG的优点和背景,接下来对今年的赛题进行介绍。

CCF 国际AIOps挑战赛迄今第七届,本届挑战赛由中国计算机学会(CCF)主办,中国计算机学会互联网专委会、清华大学、中国科学院计算机网络信息中心承办,中兴通讯、北京智谱华章科技有限公司、中南大学计算机学院、清华大学计算机科学与技术系、北京必示科技有限公司协办。同时,本届AIOps挑战赛也是OpenAIOps社区成立之后第一届重要年度赛事。

去年挑战赛的“开放式赛题”已经带来了一些大语言模型应用方案,但是更多的方案是没有落地可评测,今年我们需要看到具体的落地应用效果。

本届挑战赛的赛题方向:“基于检索增强的运维知识问答”挑战赛。

首次采用大模型检索增强(RAG)技术,基于5G领域运维技术文档,探索如何结合领域私有技术文档进行高效私域知识问答。揭示在通用大语言模型基座下,垂直领域知识问答面临的领域知识缺失,公私域知识冲突,多模态图表并存等一系列挑战。

在这里插入图片描述

本届大赛采用双赛道赛制。

赛道一:使用开源的Qwen1.5-14b模型,可以自由选择对模型微调或不微调,进行RAG问答。在挑战赛官网上,我们也做了一些参考范例,供大家参考使用。

赛道二:调用智谱GLM4的API接口,模型不能微调,模拟在特定场景下没有自己微调模型能力的运维场景。

参赛队伍自由选择赛道,可以两个赛道都参加,也可以只参加一个赛道,最终成绩按照最好排名的赛道计算。

在这里插入图片描述

报名后,可以在挑战赛官网相应赛事的数据页面看到下载方式。本届赛事目前已经提供了约4万页的垂直领域文档,目前分为DIRECTOR、UMAC、EMSPLUS、RCP4个项目,这4个项目是5G的4大模块。

下载地址:挑战赛官网-数据Tab下,链接为:https://www.modelscope.cn/datasets/issaccv/aiops2024-challenge-dataset

在这里插入图片描述

举个例子,上图是数据原始材料介绍了NPCF的服务操作。

评测题目:Npcf_SMPolicyControl服务包含哪些操作?

专家人工答案:包含Create、Update、UpdateNotify、Delete操作

选手可以微调或者调用模型,基于文档构建RAG去回答问题,然后在线进行评测。

在这里插入图片描述

目前提供了两种数据格式(内容相同),HTML格式和TXT格式。TXT它相比HTML格式,没有跳转链接,会丢失文档间的关系性,建议有能力的选手更多的去用HTML格式,信息更加丰富。目前初赛已经公布100道精选题目,选手可以基于题目进行优化。

在这里插入图片描述

本次挑战赛的竞赛环境将在魔搭社区,每个参赛的选手申请到了100个小时的32GB显存的GPU以及比赛期间的免费CPU资源,然后提供了step by step的参考的范例,可以参考也可以做新的方案。

奖项设置

本届大赛奖金池总额¥140,000,两个赛道合并评分。

一等奖1名,奖金¥50,000;

二等奖2名,奖金¥30,000;

三等奖3名,奖金¥10,000。

(以上提及金额为税前金额)

赛程安排

本次挑战赛正式赛程预计跨越5个月,5月12日举办线下宣讲会,同时启动报名;6月开启初赛,选拔20+支队伍晋级复赛;7月进行复赛,最终决胜出10支队伍晋级决赛;9月将进行最终的决赛答辩和研讨会。

报名时间:2024年5月12日-6月11日

报名流程:参赛选手在官网(https://aiops-challenge.com)进行注册,按照提示填写账户资料、绑定手机号、进行实名认证,实名认证经审核通过后,即可点击“参加比赛”报名。

创建队伍:选手报名后自动创建团队,可邀请其他成员加入,组队完成后由队长确认“确认组队完成”。

资源申请:选手需“确认组队完成”(单人参赛也需要确认)后,请以团队为单位,填写资源需求表(每支队伍提交一份即可,不超过5个账号;如果参加赛道一,仅填写魔搭资源需求表即可。如果赛道二,则还需填写智谱GLM-4资源需求表),组委会将根据需求表信息为参赛各队伍提社区资源。

在这里插入图片描述

魔搭资源:每个账号 100小时32GB显存GPU+比赛期间免费CPU计算资源

智谱GLM-4资源:每个账号 200万 GLM-4 API 免费 tokens

评分规则

大赛分为初赛、复赛和决赛三个阶段。

初赛只需要提交答案,不强制提交文档。最后从每个赛道排行榜选择至少10个(累计20+)比赛队伍进入复赛。

如果两个赛道均参加,以最佳成绩所在赛道为主。
如果榜单成绩不佳,但方案设计有新意,可联系主办方提交设计文档。主办方会组织专家进行评审项目创新度(不多于10名,以提交顺序为准),项目创新度高的队伍可以直通复赛,原则上直通名额两个赛道累计不大于5名。

复赛20多支队伍除了会在隐藏赛题上评测,还需要提交设计文档。主办方会组织业内专家,开展复赛评审会,综合复赛榜单成绩和技术方案文档,选择打分前10名进入决赛。

前10名复赛胜出选手在决赛当天现场ppt答辩,决赛嘉宾现场投票决定排名和获奖名单。

本届挑战赛使用自动化评测方案,选手上传答案脚本,实时更新榜单。

在这里插入图片描述

本届挑战赛报名已开启,欢迎参与!更多赛事相关信息将在社区“智能运维前沿”公众号发布,同时OpenAIOps社区群将提供赛事通知、技术答疑,有意者可扫码添加官方微信号(OpenAIOps社区小助手)入群。

在这里插入图片描述

参考文献

·Knowledge Graph Prompting for Multi-Document Question Answering, AAAI 2024
·Never Lost in the Middle: Improving Large Language Models via Attention Strengthening Question Answering, arXiv:2311.09198
·Visconde: Multi-document QA with GPT-3 and Neural Reranking, arXiv:2212.09656
·End-to-End Training of Multi-Document Reader andRetriever for Open-Domain Question Answering, NeruIPS 2021
·Chatlaw: Open-source legal large language model with integrated external knowledge bases, arXiv:2306.16092
·Self-rag: Learning to retrieve, generate, and critique through self-reflection, arXiv:2310.11511
·Pdftriage: Question answering over long, structured documents, arXiv:2309.08872
·Answering Complex Questions by Joining Multi-Document Evidence with Quasi Knowledge Graphs, SIGIR 2019

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/14760.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

别对我动心短视频:成都鼎茂宏升文化传媒公司

别对我动心短视频:时代的爱情哲学与心理探索 在短视频的海洋里,"别对我动心"这样的标题,如同一颗石子投入平静的湖面,激起了层层涟漪。它不仅仅是对一段情感的拒绝,更是一种现代人情感态度的表达&#xff0…

14 vue学习:透传Attributes

Attributes 继承 “透传 attribute”指的是传递给一个组件,却没有被该组件声明为 [props]或 [emits]的 attribute 或者 v-on 事件监听器。最常见的例子就是 class、style 和 id。 当一个组件以单个元素为根作渲染时,透传的 attribute 会自动被添加到根元…

【全部更新完毕】2024长三角数学建模A题思路代码文章教学-“抢救”落水手机

文章摘要部分: “抢救”落水手机 摘要 文章主要探讨了如何科学地处理和搜索在水体中意外掉落的物品:华为 Mate 60 Pro手机和居民身份证。本文基于物理模型和动力学分析,为不同水体环境中的掉落物品提供了详尽的搜索策略和打捞建议。 本文…

[安洵杯 2019]crackMe

直接就退出程序了 找到关键函数了,好像用到了 hook 还有一个 嘿嘿,看着就是像 base64 只是 补‘’改成了‘ ! ’ 交叉引用啊,翻到一个应该是最后比较函数 1UTAOIkpyOSWGv/mOYFY4R!! 那一坨对 a1数组的操作没看懂 先总结一下就是…

SpringBoot搭建Eureka注册中心

系列文章目录 文章目录 系列文章目录前言前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 1、Spring-Cloud Euraka介绍 Spring-Cloud Euraka是Spring Cloud集合中一…

Convolutional Occupancy Networks【ECCV2020】

论文:https://arxiv.org/pdf/2003.04618 代码:GitHub - autonomousvision/convolutional_occupancy_networks: [ECCV20] Convolutional Occupancy Networks 图 1:卷积占据网络。传统的隐式模型 (a) 由于其全连接网络结构,表现能力…

继承初级入门复习

注意:保护和私有在类中没有区别,但是在继承中有区别,private在继承的子类不可见,protect在继承的子类可见 记忆方法:先看基类的修饰符是private,那都是不可见的。如果不是,那就用继承的修饰和基…

gstreamer Windows常见问题汇总

需要先安装gstreamer , 再编译opencv。https://gstreamer.freedesktop.org/download/,都需要安装。 OpenCV Error: Unspecified error (The function is not implemented. Rebuild the library with Windows, GTK 2.x or Carbon support. If you are on Ubuntu or D…

肌肤暗沉与胶原蛋白:解锁透亮肌肤的秘密

🌸亲爱的小仙女们,今天我们来聊聊肌肤暗沉与胶原蛋白之间的神秘联系。你是不是也曾为肌肤的暗沉而烦恼?其实,很多时候,肌肤的暗沉不仅仅是外部因素造成的,更与肌肤内部的胶原蛋白含量密切相关。&#x1f31…

系统架构师-考试-基础题-错题集锦1

系统架构师-考试-基础题-错题集锦 1.当一台服务器出现故障时将业务迁移到另外一台物理服务器上,保障了业务的连续性。 2.面向对象: 实体类,边界类,控制类 3.RUP:UP,统一过程,以架构为中心&am…

LeetCode700二叉搜索树中的搜索

题目描述 给定二叉搜索树(BST)的根节点 root 和一个整数值 val。你需要在 BST 中找到节点值等于 val 的节点。 返回以该节点为根的子树。 如果节点不存在,则返回 null 。 解析 最基本的二叉搜索树的应用,递归或者while循环都可以…

分布式数据库HBase入门指南

目录 概述 HBase 的主要特点包括: HBase 的典型应用场景包括: 访问接口 1. Java API: 2. REST API: 3. Thrift API: 4. 其他访问接口: HBase 数据模型 概述 该模型具有以下特点: 1. 面向列: 2. 多维: 3. 稀疏: 数据存储: 数据访问: HBase 的数据模型…

炼丹学习笔记2---ubuntu2004运行3D Gaussian Splatting记录

前言 主要想看看前沿效果,看看跟激光slam出来效果差多少。折腾过程中,务必 根据本地的cuda版本号,安装对应的torch相关东西。 1、拉仓库 git clone https://github.com/graphdeco-inria/gaussian-splatting.git2、创建环境并激活 conda c…

MySQL详细安装、配置过程,多图,详解

本文适合centos7环境下安装mysql,在安装和卸载过程中,都在root用户下完成。文章目录 清理环境获取mysql官方yum源安装mysql yum源安装mysql服务安装报错解决办法验证是否安装完成启动mysql服务登录服务方法一:方法二:方法三&#…

数据意外删除?安卓手机数据恢复教程来帮你解救

手机不仅仅是一个通讯工具,更是我们记录生活、工作、学习等各种信息的重要载体,无论是拍照、录音、录像,还是文字记录,手机都能轻松完成。可有时候我们会不小心删除一些重要的数据,这时候我们该怎么办呢?别…

Modbus-RTU/TCP规约 | 报文解析 | 组织报文与解析报文(C++)

文章目录 一、MODBUS规约1.MODBUS-RTU规约2.MODBUS-TCP规约 二、报文解析1.MODBUS-RTU报文帧解析2.MODBUS-TCP报文帧解析 三、C代码实现组织报文与解析报文 一、MODBUS规约 Modbus规约是一种广泛使用的串行通信协议(应用层报文传输协议),用于…

鲲泰新闻丨第七届数字中国建设峰会正式启幕,神州鲲泰携手天翼云共筑智算云生态

2024年5月23日,由国家发展改革委、国家数据局、国家网信办、科技部、国务院国资委、福建省人民政府共同主办的“第七届数字中国建设峰会”在福建省福州市海峡国际会展中心盛大开幕。 数字中国建设峰会是展示数字中国建设成就的盛会,本次峰会以“释放数据…

【MYSQL】分数排名

表: Scores ---------------------- | Column Name | Type | ---------------------- | id | int | | score | decimal | ---------------------- id 是该表的主键(有不同值的列)。 该表的每一行都包含了一场比赛的分数。Score 是…

草图大师2024怎么保存低版本呢?插件怎么写?

草图大师是一款流行的绘图和设计软件,为了向后兼容,保存低版本文件时,可以采取以下步骤: su模型库 1.另存为旧版本格式: 在保存文件时,草图大师通常会提供一个选项,让你选择要保存的文件格式和…

智简云携手云器Lakehouse打造一体化大数据平台,释放数据价值

导读 本篇分享的是智简云使用云器Lakehouse升级数据平台的实践总结。 智简云,是一家拥有十余年历史的科技公司,专注于企业服务领域,开发了两款核心产品:基于PASS平台的客户关系管理(CRM)系统和为中小型用…