【论文速读】| LLMCloudHunter:利用大语言模型(LLMs)从基于云的网络威胁情报(CTI)中自动提取检测规则

图片

本次分享论文:LLMCloudHunter: Harnessing LLMs for Automated Extraction of Detection Rules from Cloud-Based CTI

基本信息

原文作者:Yuval Schwartz, Lavi Benshimol, Dudu Mimran, Yuval Elovici, Asaf Shabtai

作者单位Ben-Gurion University of the Negev, Department of Software and Information Systems Engineering

关键词:网络威胁情报(CTI)、大语言模型(LLM)、威胁狩猎、云、Sigma规则

原文链接:https://arxiv.org/abs/2407.05194

开源代码:暂无

论文要点

论文简介:随着网络攻击数量和复杂性的增加,威胁狩猎已成为主动安全的关键方面,能够在威胁造成重大损害之前进行检测和缓解。开源网络威胁情报(OSCTI)是威胁狩猎者的重要资源,但通常以非结构化格式提供,需要进一步的手动分析。本文提出了LLMCloudHunter,这是一个新颖的框架,利用大语言模型(LLMs)从文本和视觉OSCTI数据中自动生成通用签名检测规则候选。研究者使用12个注释的实际云威胁报告评估了所提出框架生成的规则的质量。结果表明,研究者的框架在准确提取威胁行为者API调用方面达到了92%的精确度和98%的召回率,并且在生成的检测规则候选成功编译并转换为Splunk查询方面达到了99.18%的成功率。

研究目的:在技术快速发展的背景下,网络攻击的数量和复杂性显著增加,传统的被动防御措施已经不足以应对这些威胁。威胁狩猎是一种主动搜索和缓解未被检测到的威胁的方法,旨在缩短入侵与发现之间的时间窗口。开源网络威胁情报(OSCTI)是威胁狩猎中广泛使用的信息来源,但由于其非结构化的特性,通常需要手动分析才能得出有意义的见解。本文的研究目的在于开发一个利用大语言模型(LLMs)的框架,能够自动从非结构化OSCTI中提取检测规则,从而提高威胁狩猎的效率和准确性,特别是在云环境下。

研究贡献:

1. 提出一个基于LLM的新框架,能够从非结构化OSCTI中自动生成Sigma规则候选,集成了文本和视觉信息,虽然框架主要针对云环境,但可以适用于本地环境相关的CTI。

2. 提供了一个包含12个云相关OSCTI帖子的注释数据集,支持框架的训练和评估。

3. 提供了关于LLM在网络安全复杂NLP任务中的应用见解,涉及提示工程技术和模型特性参数的有效使用。

4. 进行了全面的评估,评估了生成的Sigma规则候选的准确性和正确性。

5. 将研究者的代码和云CTI数据集在GitHub上公开,供研究社区使用。

引言

随着技术的快速发展和数字化进程的推进,网络攻击的数量和复杂性也随之增加,导致与这些技术进步相关的安全风险日益突出。为了应对这些风险,组织在传统的被动防御措施之外,开始采用动态防御策略,其中之一就是威胁狩猎。这种方法通过主动搜索和缓解未被检测到的威胁,旨在缩短从入侵到发现的时间窗口。开源网络威胁情报(OSCTI)作为威胁狩猎者的重要资源,提供了大量潜在和活跃威胁的信息。然而,OSCTI通常以非结构化的格式出现,需要手动分析才能得出有意义的见解。本文提出了LLMCloudHunter框架,利用大语言模型(LLM)自动从文本和视觉OSCTI数据中生成检测规则,特别针对云环境的独特安全挑战。

研究方法

本文提出的LLMCloudHunter框架包括三个主要阶段:预处理、段落级处理和OSCTI级处理。在预处理阶段,首先使用网络抓取工具下载并解析OSCTI的HTML代码,将其转换为统一的文本格式,并过滤掉不必要的内容。接着,通过图像分析模块处理从OSCTI中提取的图像,将其内容转换为文本以供进一步分析。

图片

在段落级处理阶段,框架通过API调用提取器和MITRE ATT&CK TTP提取器,从预处理后的文本中识别出关键实体。然后,利用规则生成器将这些实体转化为初步的Sigma规则候选。

最后,在OSCTI级处理阶段,框架对从各段落生成的Sigma规则候选进行聚合和优化。通过规则优化器合并和分离选择字段,消除冗余,并通过IoC增强器将提取的IoC整合到Sigma规则中,最终生成逻辑一致且操作性强的检测规则。

通过这种方法,LLMCloudHunter能够从非结构化的OSCTI数据中自动生成适用于云环境的检测规则,提高威胁狩猎的效率和准确性。

研究讨论

研究者在12个云相关OSCTI源上评估了LLMCloudHunter的有效性和准确性。结果显示,该框架在准确提取威胁行为者的API调用方面达到了92%的精确度和98%的召回率,在提取IoC方面达到了99%的精确度和98%的召回率。此外,99.18%的生成检测规则候选成功转换为Splunk查询。通过综合评估,研究者确认了框架在处理OSCTI方面的高效性和准确性。

消融研究结果进一步验证了框架各组件的重要性。尤其是图像分析模块和API调用提取器,对提高整体性能起到了关键作用。然而,提取MITRE ATT&CK TTP的过程仍存在一定挑战,这可能影响整体性能,但不会影响Sigma规则候选的检测能力。总体而言,LLMCloudHunter展示了在自动化处理非结构化OSCTI数据方面的巨大潜力。

研究评估

数据集:研究者收集了12个由不同供应商发布的云环境开源网络威胁情报(OSCTI)。每个OSCTI的详细描述包括图像数量、标记数量、API调用数量及其技术复杂性。为了创建数据集的真实标签,研究者的研究团队(包括威胁狩猎和云安全专家)对每个OSCTI的内容进行了深入分析,识别并提取了OSCTI中描述的实体及其关系,以创建连贯且有意义的Sigma规则候选。

图片

评估指标:研究者使用常见的实体和关系提取指标(精确度、召回率和F1分数)评估了框架的性能,并定义了一组特定的标准以测试每个Sigma规则候选在OSCTI的操作上下文中的功能性。

结果:LLMCloudHunter在提取威胁行为者的API调用方面表现出色,达到92%的精确度和98%的召回率,在提取IoC方面达到99%的精确度和98%的召回率。此外,生成的Sigma规则候选中有99.18%成功转换为Splunk查询。研究者的评估还显示,LLMCloudHunter生成的规则在语法正确性、条件字段准确性和描述元数据对齐方面表现优异,但在关键程度准确性方面略有不足。

图片

消融研究进一步验证了各组件的重要性,特别是图像分析模块和API调用提取器在提高整体性能方面起到了关键作用。尽管在提取MITRE ATT&CK TTP方面存在挑战,但这些并未显著影响Sigma规则候选的检测能力。总体而言,LLMCloudHunter在处理非结构化OSCTI数据并生成可操作的检测规则方面展示了巨大的潜力。

论文结论

本文提出了LLMCloudHunter,一个利用预训练大语言模型分析文本和视觉OSCTI并自动生成Sigma规则候选的端到端框架。研究者的框架展示了LLMs在处理OSCTI和生成可操作规则方面的潜力,通过使用Sigma格式,LLMCloudHunter的输出可以无缝集成到现有的SIEM系统中。

未来的工作可以集中在将LLMCloudHunter扩展到本地环境,增加其在不同组织设置和环境中的适用性。此外,研究者计划通过增加剧本自动化功能,增强框架的威胁缓解能力,为威胁狩猎提供更强大的支持。

原作者:论文解读智能体

校对:小椰风

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/48864.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第一弹:基于ABAP OLE技术实现对服务器文件进行读写操作

前言 最近遇到这样一个需求,需要对BW服务器上的文件进行下载的同时写入每个用户相对应的数据。之前的服务器模版是一个死模版,对于这样的要求,我就想到了OLE技术,那么什么是OLE技术呢? 一、什么是OLE技术&#xff1f…

Python 全栈体系【三阶】(三)

第一章 Django 七、静态文件 1. 概述 静态文件是指在WEB应用中的图像文件、CSS文件、Javascript文件。 2. 静态文件的配置 settings.py中关于静态文件的配置如下: STATICFILES_DIRS [BASE_DIR , static, ]STATIC_URL /static/其中: STATICFILES…

C++——模板初阶 | STL简介

P. S.:以下代码均在VS2019环境下测试,不代表所有编译器均可通过。 P. S.:测试代码均未展示头文件stdio.h的声明,使用时请自行添加。 博主主页:Yan. yan.                        …

便携气象站:科技助力气象观测

在科技飞速发展的今天,便携气象站以其轻便、高效、全面的特点,正逐渐改变着气象观测的传统模式。这款小巧而强大的设备,不仅为气象学研究和气象灾害预警提供了有力支持,更为户外活动、农业生产等领域带来了诸多便利。 便携气象站是…

Redis+Lua脚本+AOP+反射+自定义注解,打造我司内部基础架构限流组件

定义注解 Retention(RetentionPolicy.RUNTIME) Target({ElementType.METHOD}) Documented public interface RedisLimitAnnotation {/*** 资源的key,唯一* 作用:不同的接口,不同的流量控制*/String key() default "";/*** 最多的访问限制次数…

算法日记day 17(二叉树的最大、最小深度)

一、二叉树的最大深度 题目: 给定一个二叉树 root ,返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 示例 1: 输入:root [3,9,20,null,null,15,7] 输出:3示例 2&#xff1…

STM32智能机器人控制系统教程

目录 引言环境准备智能机器人控制系统基础代码实现:实现智能机器人控制系统 4.1 数据采集模块 4.2 数据处理与控制模块 4.3 通信与导航系统实现 4.4 用户界面与数据可视化应用场景:机器人控制与优化问题解决方案与优化收尾与总结 1. 引言 智能机器人控…

qt中charts图表的使用方法

折线图 #include "widget.h" #include "ui_widget.h" #include <QtCharts/QChart> #include <QtCharts/QChartView> #include <QtCharts/QLineSeries> #include<QVBoxLayout>Widget::Widget(QWidget *parent): QWidget(parent), …

Windows图形界面(GUI)-MFC-C/C++ - MFC项目工程框架解析

公开视频 -> 链接点击跳转公开课程博客首页 -> e​​​​​​链接点击跳转博客主页 目录 MFC项目 项目选择 配置安装 程序引导 MFC框架 环境设置 程序框架 代码编写 MFC解析 程序入口 执行流程 代码结构 应用程序类 窗口框架类 消息处理 消息类型 消息…

ML.Net 学习之使用经过训练的模型进行预测

什么是ML.Net&#xff1a;&#xff08;学习文档上摘的一段&#xff1a;ML.NET 文档 - 教程和 API 参考 | Microsoft Learn 【学习入口】&#xff09; 它使你能够在联机或脱机场景中将机器学习添加到 .NET 应用程序中。 借助此功能&#xff0c;可以使用应用程序的可用数据进行自…

一个简单好用安全的开源交互审计系统,支持SSH,Telnet,Kubernetes协议(带私活)

前言 在当今的企业网络环境中&#xff0c;远程访问和交互审计成为了保障网络安-全的重要组成部分。然而&#xff0c;现有的解-决方案往往存在一些痛点&#xff0c;如复杂的配置、有限的协议支持、以及审计功能的不足。这些问题不仅增加了IT管理员的负担&#xff0c;也为企业的…

基于R语言复杂数据回归与混合效应模型【多水平/分层/嵌套】技术与代码

回归分析是科学研究特别是生态学领域科学研究和数据分析十分重要的统计工具&#xff0c;可以回答众多科学问题&#xff0c;如环境因素对物种、种群、群落及生态系统或气候变化的影响&#xff1b;物种属性和系统发育对物种分布&#xff08;多度&#xff09;的影响等。纵观涉及数…

HarmonyOS NEXT零基础入门到实战-第四部分

自定义组件: 概念: 由框架直接提供的称为 系统组件&#xff0c; 由开发者定义的称为 自定义组件。 源代码&#xff1a; Component struct MyCom { build() { Column() { Text(我是一个自定义组件) } } } Component struct MyHeader { build() { Row(…

路由器ip地址脱机是什么意思?怎么应对

在数字化时代&#xff0c;路由器作为家庭或企业网络连接的核心设备&#xff0c;其稳定性和连通性对于我们的网络体验至关重要。然而&#xff0c;有时我们可能会遇到路由器IP地址显示脱机的情况&#xff0c;这不仅影响了我们的网络访问&#xff0c;还可能对工作和娱乐造成不便。…

【C语言】 约瑟夫环,循环链表实现

1、循环链表实现约瑟夫环&#xff0c;每次经过特定步数删除一个元素 //looplist.h #ifndef LOOPLIST_H #define LOOPLIST_H #include<stdio.h> #include<string.h> #include<stdlib.h>typedef int datatype;typedef struct Node {union {int len;datatype d…

Elasticsearch:Java ECS 日志记录 - log4j2

ECS 记录器是你最喜欢的日志库的格式化程序/编码器插件。它们可让你轻松将日志格式化为与 ECS 兼容的 JSON。ECS 兼容的 JSON 日志记录可以帮我们简化很多分析&#xff0c;可视化及解析的工作。在今天的文章里&#xff0c;我来详述如何在 Java 应用里生成 ECS 相兼容的日志。 …

tensorflow keras Model.fit returning: ValueError: Unrecognized data type

题意&#xff1a;TensorFlow Keras 的 Model.fit 方法返回了一个 ValueError&#xff0c;提示数据类型无法识别 问题背景&#xff1a; Im trying to train a keras model with 2 inputs: an image part thats a tf.data.Dataset and a nor mal part represented by a pd.DataF…

【中项】系统集成项目管理工程师-第4章 信息系统架构-4.5技术架构

前言&#xff1a;系统集成项目管理工程师专业&#xff0c;现分享一些教材知识点。觉得文章还不错的喜欢点赞收藏的同时帮忙点点关注。 软考同样是国家人社部和工信部组织的国家级考试&#xff0c;全称为“全国计算机与软件专业技术资格&#xff08;水平&#xff09;考试”&…

数据结构之判断平衡二叉树详解与示例(C,C++)

文章目录 AVL树定义节点定义计算高度获取平衡因子判断是否为平衡二叉树完整示例代码结论 在计算机科学中&#xff0c;二叉树是一种非常重要的数据结构。它们被广泛用于多种算法中&#xff0c;如排序、查找等。然而&#xff0c;普通的二叉树在极端情况下可能退化成链表&#xff…

C#基于SkiaSharp实现印章管理(4)

前几篇文章实现了绘制不同外形印章的功能&#xff0c;印章内部一般包含圆形、线条等形状&#xff0c;有些印章内部还有五角星&#xff0c;然后就是各种样式的文字。本文实现在印章内部绘制圆形、线条、矩形、椭圆等四种形状。   定义FigureType枚举记录印章内部形状&#xff…