云智慧联合北航提出智能运维(AIOps)大语言模型及评测基准

随着各行业数字化转型需求的不断提高,人工智能、云计算、大数据等新技术的应用已不仅仅是一个趋势。各行业企业和组织纷纷投入大量资源,以满足日益挑剔的市场需求,追求可持续性和竞争力,这也让运维行业迎来了前所未有的挑战和机遇。

如何将LLM的强大特性与特定领域的需求相结合,成为了学术界和工业界密切关注的焦点。近日,云智慧智能研究院与北航合作,共同推出了首个专为运维领域定制的大语言模型——“Owl”,有效提高了IT相关任务在细分领域中的高效性、准确性和理解能力,相关微调和benchmark数据的开源更是为智能运维领域的专属大模型开源发展奠定了坚实基础。

背景介绍

随着IT业务的快速发展,,海量数据有效分析和管理在企业实际业务应用中变得变得日益关键。自然语言处理(NLP)技术已在命名实体识别、机器翻译等任务中显示出非凡的能力,大型语言模型(LLM)在各种 NLP 下游任务中更是取得了显著的改进。此时,基于Owl-Instruct 数据训练而成的大型语言模型——Owl 正好填补了智能运维(AIOps)对专属 LLM 的需求。研究提出了Mixture-of-Adapter strategy策略,以提高不同子领域或任务的微调效果。此外,由于缺乏智能运维领域的大语言模型的Benchmark,本次研究建立了 Owl-Bench 测评基准,同时在Owl-bench和其他运维相关的基准上进行了评估。实验表明,Owl 的性能超过了现有开源模型。

本次研究的主要贡献:

  • 提出了Mixture-of-Adapter strategy策略,以提高不同子领域或任务的微调效果。
  • 构建了智能运维领域的大语言模型的Benchmark:Owl-Bench 测评基准。
  • 实验结果表明,Owl 的性能超过了现有开源模型。

图1: Owl-Instruct数据构建和Owl训练流程

数据收集

第一步:种子数据搜集

基于云智慧智能运维专家丰富的运维经验,精心设计模型微调的数据样例和标注说明,涵盖了信息安全、应用程序、系统架构、软件架构、中间件、网络、操作系统、基础设施和数据库9个运维领域常见数据。在每个领域中,Owl-instruct都包含了不同的任务,例如运维知识问答、部署、监控、故障诊断、性能优化、日志分析、脚本编写、备份和恢复等。最终得到了一个由 2,000 个单轮和 1,000 个多轮对话的种子数据实例组成的语料库。

第二步:数据扩充

对于单轮数据,借鉴Self-Instruct的方法,最终产生了 9118 条数据。对于多轮对话数据,采用 Baize中阐明的方法,最终得到8,740条多轮对话数据。

第三步:数据质量

为了保持严格的数据质量标准,基于扩充的数据,在利用 GPT-4 对标注数据进行评分的同时,组织云智慧智能运维专家进行细致的人工验证。这种双重验证流程可确保生成数据的完整性和可靠性,同时提高数据的整体质量。在利用 GPT-4 进行评分时,针对数据集精心设计了特定的提示(prompt)。这些提示使 GPT-4 能够根据预定义的质量标准对生成的数据进行评估和评分,能够迅速识别并过滤低质量的数据实例。与此同时,数据还经过了由云智慧各智能运维专家组成的审核团的严格人工验证,审核团队会对每个数据条目进行深入评估,这一人工检查过程需要对内容、连贯性以及与特定领域知识的一致性进行彻底检查。

运维评测数据集Owl-Bench 构建

当前,运维领域评估大型语言模型性能的基准仍存在严重不足。为了弥补这一不足,云智慧构建了一个双语基准——Owl-Bench。Owl-Bench由两个不同的部分组成:317 个条目组成的问答部分和 1000 个问题组成的多选部分,涵盖了该领域的众多真实业务场景,确保Owl-Bench能够展现出多样性。测评集的收集过程包括信息安全、应用、系统架构、软件架构、中间件、网络、操作系统、基础设施和数据库9个不同的子领域。

图2: 根据词频生成的词云

实验结果

Owl-Bench实验结果

Owl-bench的实验结果包括问答题和选择题的结果,实验结果都证明了Owl相关能力的领先性。

图3: 问答题pairwise的结果, 以GPT4作为评测

图4: 选择题zero-shot得分雷达图

运维领域下游任务

为了验证Owl在运维领域的泛化性,在运维相关下游任务进行了测试,选取了日志解析、日志异常检测两个典型任务进行了测试。对于这两个典型任务,设计了特定的prompt,相关实验证实了Owl的有效性。

图5: 日志解析基准测试结果

图6: 日志异常检测基准测试结果

结语

智能运维专属大模型“Owl”的问世将会成为智能运维行业发展的一个新转折点。随着各类新兴技术的应用,云智慧也将会为智能运维领域带来更多的突破和创新,进一步为各类企业提供创新的运维解决方案,提升企业的IT运维效能,促进数字化转型的成功实施。与此同时,“Owl”相关微调和benchmark数据的开源,将为智能运维领域的全生态开放发展贡献更多的研究和应用潜力。

论文链接:https://arxiv.org/abs/2309.09298 Owl : A Large Language Model for IT Operations(猫头鹰:用于 IT 运维的大型语言模型) 友情链接: https://mp.weixin.qq.com/s/LVFp8iYFCg0FouTUWVtFIw

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/131768.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构-二叉树·堆(顺序结构的实现)

🎉个人名片: 🐼作者简介:一名乐于分享在学习道路上收获的大二在校生 🐻‍❄个人主页🎉:GOTXX 🐼个人WeChat:ILXOXVJE🐼本文由GOTXX原创,首发CSDN&…

【wp】2023鹏城杯初赛 Web web1(反序列化漏洞)

考点&#xff1a; 常规的PHP反序列化漏洞双写绕过waf 签到题 源码&#xff1a; <?php show_source(__FILE__); error_reporting(0); class Hacker{private $exp;private $cmd;public function __toString(){call_user_func(system, "cat /flag");} }class A {p…

Ansible中的角色使用

Ansible中的角色使用&#xff1a; 目录 一、ansible角色简介 二、roles目录结构 三、roles的创建 四、roles的使用 1、书写task主任务 2、触发器模块 3、变量模块 4、j2模块 5、files模块 6、启用模块 7、执行playbook 五、控制任务执行顺序 六、多重角色的使用 一…

数据结构(超详细讲解!!)第二十一节 特殊矩阵的压缩存储

1.压缩存储的目标 值相同的元素只存储一次 压缩掉对零元的存储&#xff0c;只存储非零元 特殊形状矩阵&#xff1a; 是指非零元&#xff08;如值相同的元素&#xff09;或零元素分布具有一定规律性的矩阵。 如&#xff1a; 对称矩阵 上三角矩阵 下三角矩阵 对角矩阵 准…

redis教程 二 redis客户端Jedis使用

文章目录 Redis的Java客户端-JedisJedis快速入门创建工程&#xff1a;引入依赖&#xff1a;建立连接测试&#xff1a;释放资源Jedis连接池创建Jedis的连接池改造原始代码 Redis的Java客户端-SpringDataRedis快速入门导入pom坐标配置文件测试代码 数据序列化器StringRedisTempla…

【unity实战】Unity实现2D人物双击疾跑

最终效果 前言 我们要实现的功能是双击疾跑&#xff0c;当玩家快速地按下同一个移动键两次时能进入跑步状态 我假设快速按下的定义为0.2秒内&#xff0c;按下同一按键两次 简单的分析一下需求&#xff0c;实现它的关键在于获得按键按下的时间&#xff0c;我们需要知道第一次…

STM32G030F6P6 芯片实验 (二)

STM32G030F6P6 芯片实验 (二) Hello World - GPIO LED 尝试了下, 从 0 开始建 MDK HAL M0plus Project, 成功点亮 LED了。 但是 ST-LINK跑着跑着, 码飞了! 不知飞哪去了。 只好拿 MX 建了个 MDK Base。 呼叫 SysTick HAL_Delay(), 切换 LED。 基本上都是一样的用法, 只是换…

MapReduce WordCount程序实践(IDEA版)

环境 Linux&#xff1a;Hadoop2.x Windows&#xff1a;jdk1.8、Maven3、IDEA2021 步骤 编程分析 编程分析包括&#xff1a; 1.数据过程分析&#xff1a;数据从输入到输出的过程分析。 2.数据类型分析&#xff1a;Map的输入输出类型&#xff0c;Reduce的输入输出类型&#x…

蓝桥杯每日一题2023.11.2

题目描述 等差素数列 - 蓝桥云课 (lanqiao.cn) 题目分析 对于此题我们需要求出最小的公差并且长度为10&#xff0c; 1.确保序列开始为素数 2.确定枚举的个数 注意&#xff1a;序列中数只是d的变化&#xff0c;可以通过此计算将开始数字后9个数字都计算出来&#xff0c;d是…

【Qt之QtXlsx模块】安装及使用

1. 安装Perl&#xff0c;编译QtXlsx源码用 可以通过命令行进行查看是否已安装Perl。 下载及安装传送门&#xff1a;链接: https://blog.csdn.net/MrHHHHHH/article/details/134233707?spm1001.2014.3001.5502 1.1 未安装 命令&#xff1a;perl --version 显示以上是未安装…

C#中LINQtoSQL只能在.NetFramework下使用,不能在.net 下使用

目录 一、在net7.0下无法实现LINQtoSQL 1.VS上建立数据库连接 2.VS上创建LINQtoSQL 二、在.NetFramework4.8下成功实现LINQtoSQL 1.VS上建立数据库连接 2.VS上创建LINQtoSQL 三、结论 四、理由 本文是个人观点&#xff0c;因为我百般努力在.net7.0下无法实现LINQtoSQL的…

海康Visionmaster-全局脚本:方案加载完成信号发给通 信设备的方法

需要在方案加载完成后&#xff0c;发送加载完成信号到全局变量&#xff0c;发送给通信设备。 全局脚本的使用可以通过打开示例&#xff0c;完成常用的基本功能开发。 打开全局通信代码后&#xff0c;在脚本中添加代码

springboot前后端时间类型传输

springboot前后端时间类型传输 前言1.java使用时间类型java.util.Date2.java使用localDateTime 前言 springboot前后端分离项目总是需要进行时间数据类型的接受和转换,针对打代码过程中不同的类型转化做个总结 1.java使用时间类型java.util.Date springboot的项目中使用了new …

Proteus仿真--1602LCD显示电话拨号键盘按键实验(仿真文件+程序)

本文主要介绍基于51单片机的LCD1602显示电话拨号键盘按键实验&#xff08;完整仿真源文件及代码见文末链接&#xff09; 仿真图如下 其中右下方12个按键模拟仿真手机键盘&#xff0c;使用方法同手机键一样&#xff0c;拨打手机号码则在液晶显示屏上显示对应的号码 仿真运行…

DDoS类型攻击对企业造成的危害

超级科技实验室的一项研究发现&#xff0c;每十家企业中&#xff0c;有四家(39%)企业没有做好准备应对DDoS攻击&#xff0c;保护自身安全。且不了解应对这类攻击最有效的保护手段是什么。 由于缺乏相关安全知识和保护&#xff0c;使得企业面临巨大的风险。 当黑客发动DDoS攻击…

译文:我们如何使 Elasticsearch 7.11 中的 date_histogram 聚合比以往更快

这篇文章是ES7.11版本的文章&#xff0c;主要学习的是思路&#xff0c;记录在这里留作以后参考用。 原文地址&#xff1a;https://www.elastic.co/cn/blog/how-we-made-date-histogram-aggregations-faster-than-ever-in-elasticsearch-7-11 正文开始&#xff1a; Elasticsea…

【数组】有序数组的平方

## 977.有序数组的平方 力扣题目链接 (opens new window) 给你一个按 非递减顺序 排序的整数数组 nums&#xff0c;返回 每个数字的平方 组成的新数组&#xff0c;要求也按 非递减顺序 排序。 示例 1&#xff1a; 输入&#xff1a;nums [-4,-1,0,3,10]输出&#xff1a;[0,…

初阶JavaEE(15)(Cookie 和 Session、理解会话机制 (Session)、实现用户登录网页、上传文件网页、常用的代码片段)

接上次博客&#xff1a;初阶JavaEE&#xff08;14&#xff09;表白墙程序-CSDN博客 Cookie 和 Session 你还记得我们之前提到的Cookie吗&#xff1f; Cookie是HTTP请求header中的一个属性&#xff0c;是一种用于在浏览器和服务器之间持久存储数据的机制&#xff0c;允许网站…

g.Grafana之Gauge的图形说明

直接上操作截图 1. 创建一个新的Dashboard 2.为Dashboard创建变量 【General】下的Name与Label的名称自定义 【Query options】 下的Group可以填写Zabbix内的所有组/.*/ , 然后通过Regex正则过滤需要的组名 3.设置Dashboard的图形 我使用文字来描述下这个图 1.我们在dash…

Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测

目录 一、环境准备二、下载 ONNX 模型文件2.1 Azure 机器学习工作室2.2 Azure 机器学习 Python SDK2.3 生成模型进行批量评分多类图像分类 三、加载标签和 ONNX 模型文件四、获取 ONNX 模型的预期输入和输出详细信息ONNX 模型的预期输入和输出格式多类图像分类 多类图像分类输入…