运维大模型评测基准OpsEval发布及解读

在2023年CCF国际AIOps挑战赛暨“大模型时代的AIOps”研讨会上,由清华大学、中国科学院计算机网络信息中心、南开大学、必示科技、中兴通讯、中亦科技、腾讯、华为、联想、国泰君安证券、基石数据、Zabbix中国宏时数据、日志易等多家首批社区成员单位共同发布了国内首个运维大语言模型评测基准OpsEval。中科院计算机网络信息中心副研究员裴昶华对OpsEval的社区定位、榜单结果解读以及后续规划进行了分享。目前OpsEval已经拥有超过一万七千道多场景评测题目,评估了十余种主流大模型及其变种,并不断有新的社区成员加入。

图片

OpsEval评测基准正式发布

评测榜单:https://opseval.cstcloud.cn
论文链接:https://arxiv.org/abs/2310.07637

以下文章内容根据中科院计算机网络信息中心副研究员裴昶华的分享整理:

01 为什么会有OpsEval

随着大语言模型的涌现,不光是国内,国外知名的AIOps的厂商也纷纷将大语言模型的知识生成、意图识别和工具编排的能力集成到了智能运维产品中,并提出了自己的基于大模型的运维产品。如知名上市公司DataDog。下图中列举出一些现国外知名智能运维企业他们的产品以及对应的大模型赋能的智能运维场景。

在这里插入图片描述

国外各大运维公司提出了自己的大模型赋能的AIOps产品

通过DataDog试用的产品介绍文档可以看出,DataDog的Bits AI能够提供自然语言的交互接口,用户可以通过对话的方式询问当前系统的运行状态,Bits AI会自动分析用户的意图,调用相应的接口,返回对应的系统告警信息。除此之外,Bits AI还能帮助运维人员自动的创建需要的工作流,如回滚操作,单元测试,API测试等。如下图所示:

在这里插入图片描述

DataDog的Bits AI产品功能截图示意

但是真正要大模型应用起来,面临着很多的挑战,不光是训练模型的时候面临的庞大的资源和数据的挑战,在模型选型等方面也面临着非常具体的挑战,如怎么选择适合自己公司的大模型,怎么评测某一次的模型优化是否有效果,怎么向友商或者客户证明自己的智能运维产品的能力等等,都阻碍了大模型在AIOps领域的快速发展。

虽然说这些问题都是AI社区有了部分的解决方案,但是在运维领域却显得难度更大。坊间有个段子:如果家里有矿,就搞通用大模型;家里有数据,就搞行业大模型,家里有理想有场景,就搞Agent智能体。但根据我们和一些业界专家交流,发现国内厂商面临的最普遍的问题是,矿有,数据有,场景有,但是每一样都不是足够充足。尤其是数据,虽然每家公司都有海量的运维数据,但是真正能用作行业模型训练的高质量运维数据非常少,甚至没有足够高质量的评测数据,使得评测结果不够执行。除此之外,现有大模型在AIOps应用还面临着如下的挑战:

由于运维下游场景复杂,不同的公司缺乏沟通交流的通道,无法在第一时间学习到其他先进公司的应用经验;

缺乏一个权威的评测基准,无法评价现有智能运维公司的基于大模型的AIOps能力。

AI社区日新月异,每天都有新的模型和新的技术出现,作为下游垂直应用,怎么选择最实用和最有效的技术方案显得至关重要。

现有AIOps场景下应用大模型的困局

为了解决上述的问题,OpsEval应运而生。OpsEval首先提出了一个基于大模型的通用运维能力评测榜单,将每家单位的公域数据汇聚起来,系统和全面的评测AI社区最新的模型,针对不同的场景任务进行评测,解决大家的燃眉之急。后续OpsEval也会作为Open AIOps Alliance社区的重要功能,持续的为大家提供最新的评测,并定期的为大家提供解读结果。而Open AIOps Alliance社区除了OpsEva评测,还会提供PlayGround,鼓励各大厂商贡献自己的典型应用和场景,社区人员可以在这个基础上读取数据、训练自己的模型、设计自己的智能体代码,在真实场景上应用,平台提供一站式的评测。这些所有的代码、模型和场景都会开源,大家在这个社区中可以像搭积木一样,快速的利用业界的最佳应用提升自己公司的运维能力。

在这里插入图片描述

OpsEval在Open AIOps Alliance的位置

02 OpsEval 榜单结果解读

图片

OpsEval第一批参与单位

针对上面所提到的问题,清华大学、中国科学院计算机网络信息中心、南开大学、必示科技、中兴通讯、中亦科技、腾讯、华为、联想、国泰君安证券、基石数据、Zabbix中国宏时数据、日志易等多家首批社区成员单位共同发布了国内首个面向大语言模型的多层次智能运维能力评价基准OpsEval。OpsEval中总共包含17000多道选择题和350道问答题,涉及互联网、通信、云计算、金融、证券等领域,可以对模型的有线网络运维、数据库运维、金融IT运维、日志分析能力等进行评测,应用场景包括5G网络通信、混合云建设和运维、金融信创运维、证券信息系统等。

下面简单介绍一些OpsEval题库中比较典型的,但是大模型回答错的题目并做一个简单的解析。

图片

这个是一个典型的数据库运维的题目,大多数数据库专家可以给出正确的回答。这里备库如果不可用,则可能切换到最大性能模式,此时主库可能会暂停(hang)一个超时的时间。但是在网络上也会存在一些语料写的并不足够准确,从而会误导到大模型。

图片

这个也是一个非常典型的需要领域知识+推理进行解决的问题,Qwen和Alpaca模型没有给出正确的答案,Qwen给的答案是时序数据,如果没有运维领域知识的话大家很容易被这个答案迷惑。事实上,据可观测性理论,telemetry数据中只有日志,trace和metrics,并没有timeseries。

图片

上图显示的问题是一个网络领域的常见问题,对于网络运维专家很容易给出答案,但是大模型对于IP字符不能出现x这种字符的隐形的知识并没有掌握,导致回答的不好。

图片

对于这种较为特定领域的信息,由于缺乏相关的语料等原因,GPT-4无法正确回答。

通过上面的一些典型的问题可以看出来OpsEval中除了一些典型的知识问答,还有较多的需要领域知识和简单推理相结合的题目,而这种能力对于智能运维这种严肃应用非常重要。通过这些问题,我们设计了一系列的评价标准和方法对数十种模型进行了评测。下面对OpsEval的评测结果做一个简单的解读。

Q1: 哪些大语言模型比较有用?
图片

其实大家都很关注目前到底什么模型最好,这里展示的是在11月的时候,这个榜单的评测的结果,右边展示的是12月评测的结果,首先可以看出来这个模型是日新月异,不停迭代。而且可喜的是我们国产的模型在迅速崛起。比如说李开复老师的Yi-34B的模型,Qwen-72B已经超过了GPT-3.5-Turbo。另外我们可以看出模型如果不优化会不进则退,比如说像11月的时候,LLama-2-7B在第二梯队,但到12月它已经掉到第三梯队。另外其实可以看到第二梯队第三梯队的通识模型,整体上来讲的还不是那么令人满意,有很大的提升空间。

Q2: 模型在不同的行业场景下的效果对比
图片

那如果去看在不同场景下的话,它的差距就更大。我们可以看出来在Zabbix提供的评测集合上,最好的甚至都不是GPT-4,像Qwen-72B反而效果最好,这就说明呢,在运维领域,不同的场景需要针对性的实际测评,我们不一定在所有的场景下面都无脑选择GPT-4。

Q3:模型参数量对效果的影响
下图中展示了一些不同参数量的模型能力上的区别。从左边的这个不规则的曲线可以看出来,模型在不同的任务上面是有比较大的差异。通过不同的颜色可以看出模型参数量和模型的能力存在一个比较明显的正比的关系,而且呈现一个明显的分层。

图片

Q4: Prompt工程有没有用?
通过评测的数据,也可以看Prompt工程到底有没有用。根据下图可以看出来,是非常有用的,但是对于不同的基准模型,提升的幅度并不相同,仍然需要预训练或微调训练更加鲁棒的运维大模型。

图片

Q5: 怎么评价运维领域问答题?
在对模型进行评估时,对于选择题,使用准确性 (Accuracy) 作为指标;而对于主观题,则使用Rouge(对真实答案的召回率), Bleu(生成答案的精确度), GPT4-Score(由GPT4对标准答案和大模型回答进行综合分析打分), Expert Evaluation(由专家根据回答的流畅度、准确性、论据充分度进行打分)等作为评价指标。但是这些指标都需要较多的人力,扩展性不强,我们通过GPT-4来打分,评价模型的答案和参考答案的匹配性,从下图右边可以看出来和专家打分的匹配度还是比较一致的。

图片

Q6: 如何进行模型精度的选择?
我们在OpsEval中评估了典型模型在不同精度下的表现,如下图所示。可以看出来在有线网络运维场景中,基于 LLaMa-2-70B进行的量化大模型和全量小模型性能的对比。在英文方面,量化大模型的效果要好于全量小模型,few-shot效果则区别不明显。这些结论可以指导我们进行有效的模型精度选择。

图片

03 OpsEval的下一站:Open AIOps Alliance

OpsEval后续会作为重要一环加入到Open AIOps Alliance社区中,为其提供基础“模型 X 评测基准”的排行榜单,同时也会作为后续AIOps挑战赛的平台。我们也将会致力于提出更准确、更易用的评测指标,同时也会汇聚更多的场景的丰富的评测数据,为大家提供第一手的、最及时的、最权威的大模型在AIOps上的能力评测和解读。敬请关注。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/626992.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于Java SSM框架实现新生入学信息管理系统项目【项目源码+论文说明】

基于java的SSM框架实现新生入学信息管理系统演示 摘要 21世纪的今天,随着社会的不断发展与进步,人们对于信息科学化的认识,已由低层次向高层次发展,由原来的感性认识向理性认识提高,管理工作的重要性已逐渐被人们所认…

基于Java SSM框架实现学生寝室管理系统项目【项目源码+论文说明】计算机毕业设计

基于java的SSM框架实现学生寝室管理系统演示 摘要 寝室管理设计是高校为学生提供第二课堂,而我们所在学院多采用半手工管理学生寝室的方式,所以有必要开发寝室管理系统来对进行数字化管理。既可减轻学院宿舍长工作压力,比较系统地对宿舍通告…

微信商家转账到零钱如何开通?场景说明

商家转账到零钱是什么? 通过商家转账到零钱这个功能,如果我们系统需要对用户支付费用,比如发放佣金、提成、退款之类的,可以直接转账到用户的微信零钱。 【商家转账到零钱】是【企业付款到零钱】的升级版,2022年5月1…

Java 开源扫雷游戏 JMine 发布新版 3.0 及介绍视频

Java 开源扫雷游戏 JMine 发布新版 3.0 及介绍视频 Java 开源扫雷游戏 JMine 是笔者开发的基于 Swing 的 Java 扫雷游戏,现已发布新版 3.0 及其介绍视频。视频请见: https://www.bilibili.com/video/BV1RK4y1z7Qz/ 老版本 JMine 1.2.5 的介绍视频请见…

【python】12.字符串和正则表达式

使用正则表达式 正则表达式相关知识 在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要,正则表达式就是用于描述这些规则的工具,换句话说正则表达式是一种工具,它定义了字符串的匹配模式(…

机器学习-线性回归

1、线性回归解决的问题 线性回归是利用被称为线性回归方程的最小平方函数对一个或者多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或者多个被称为回归系数的模型参数的线性组合。 2、一元线性回归 一元线性回归分析:找到一条直线能够最大程…

socket网络编程几大模型?看看CHAT是如何回复的?

CHAT回复:网络编程中常见的有以下几种模型: 1. 阻塞I/O模型(Blocking I/O):传统的同步I/O模型,一次只处理一个请求。 2. 非阻塞I/O模型(Non-blocking I/O):应用程序轮询…

S1-12 中断

中断 在计算机系统中,中断(Interrupt)是指某个硬件设备或软件程序发出一个信号,通知 CPU 暂停当前正在执行的任务并转而执行另一个任务。中断用于处理一些需要立即响应、优先级较高的事件,例如输入设备(例…

苹果手机怎么连接电脑?看这里,答案揭晓!

通过连接苹果手机和电脑,用户可以将手机上的照片、视频、音乐、文件等数据传输到电脑中,也可以将电脑中的文件传输到手机中。 这样可以方便地备份手机数据,也可以在电脑中编辑、处理手机中的文件。那么,苹果手机怎么连接电脑呢&a…

Promise面试题合集(问题+答案)

event loop它的执行顺序: 一开始整个脚本作为一个宏任务执行执行过程中同步代码直接执行,宏任务进入宏任务队列,微任务进入微任务队列当前宏任务执行完出队,检查微任务列表,有则依次执行,直到全部执行完执…

使用Nginx作为反向代理服务器在Linux中的最佳实践

在Linux环境下,Nginx因其高效性能、稳定性以及丰富的功能集而广泛用于作为反向代理服务器。以下是在Linux中使用Nginx作为反向代理服务器的最佳实践: 1. 安装与配置 首先,确保你的Linux发行版已经安装了Nginx。大多数Linux发行版都提供了Ng…

什么是OV证书?

OV证书是一种经过严格身份验证的SSL/TLS证书,相较于基础的域名验证(DV)证书,它的验证过程更为深入和全面。在颁发OV证书前,证书颁发机构(CA)不仅会验证申请者对域名的所有权,还会对企业或组织的身份进行严格的审查,包括…

rime中州韵小狼毫 日期/农历 时间 事件 节气 滤镜

教程目录:rime中州韵小狼毫须鼠管安装配置教程 保姆级教程 100增强功能配置教程 网络上但凡提到 rime中州韵小狼毫须鼠管输入法,总少不了智能时间,日期等炫技,可见这个便捷时间/日期输入功能是多么的受欢迎。作者也不落窠臼&…

[我的rust付费栏目]rust跟我学(一)已上线

大家好,我是开源库get_local_info的作者带剑书生,get_local_info诞生半个月,现在已经获得500的下载量,并获社区日更前五名,后被西安城市开发者社区收录(【我的Rust库】get_local_info 0.1.5发布_rust_科比布…

【SpringBoot3】Spring Boot 3.0 介绍以及新特性

文章目录 一、Spring Boot 3.01、介绍2、Spring Boot 核心概念3、Spring Boot 3.0 新特性 二、Spring Boot Starter1、介绍2、Starter 命名规则3、官方提供了哪些Starter 三、spring-boot-starter-parent 说明四、示例:创建web项目参考 一、Spring Boot 3.0 1、介绍…

科研绘图(八)线性热图

线性热图(Linear Heat Map)是一种数据可视化技术,用于展示数值在一维线性空间上的分布情况。它通常用于展示沿着一条线(例如时间线或任何一维序列)的数据密度或强度变化。线性热图与传统的二维热图不同,后者…

Vue中的v-model

聚沙成塔每天进步一点点 本文内容 ⭐ 专栏简介基本用法文本输入框复选框下拉框 原理解析文本输入框的原理复选框和下拉框的原理 ⭐ 写在最后 ⭐ 专栏简介 Vue学习之旅的奇妙世界 欢迎大家来到 Vue 技能树参考资料专栏!创建这个专栏的初衷是为了帮助大家更好地应对 V…

UE5 UE4 打包报错Failed to compile material 解决

参考:https://forums.unrealengine.com/t/failed-to-compile-material-for-pcd3d_sm5-warning/385087 https://forums.unrealengine.com/t/failed-to-compile-material-for-platform-pcd3d-sm4/436176 报错:Failed to compile Material for platform PC…

运算符重载函数

C为了增强代码的可读性引入了运算符重载,运算符重载是具有特殊函数名的函数,也具有其返回值类型,函数名字以及参数列表,其返回值类型与参数列表与普通的函数类似。 函数名字为:关键字operator后面接需要重载的运算符符…

django rest_framework 部署doc文档

1.背景 在实际开发过程中,前后端分离的项目,是需要将一份完整的接口文档交付给前端开发人员,这样有利于开发速度和开发质量,以及有可能减少协同时间。 2.内容 本项目是以Pythondjangorest_framework作为技术框架,在这…