【开源威胁情报挖掘2】开源威胁情报融合评价

基于开源信息平台的威胁情报挖掘综述

  • 写在最前面
  • 4 开源威胁情报融合评价
    • 开源威胁情报的特征与挑战
    • 4.1 开源威胁情报数据融合
      • 融合处理方法
    • 4.1 开源威胁情报的质量评价
      • 4.1.1 一致性分析
        • 本体的定义与组成
        • 本体构建的层次
      • 4.1.2 去伪去重
      • 4.1.3 数据融合分析
    • 4.2 开源威胁情报质量及可信性评价
      • 4.2.1 定性评价方法
      • 4.2.2 定量评价方法
        • 特征指标提取
        • 自定义的定量评价标准
        • 图挖掘技术的应用
    • 4.3 总结与讨论
      • 数据融合与质量评价的方法和技术
      • 性能评估与研究评价
      • 研究和应用的前景
  • prompt:阅读梳理文献的尝试

写在最前面

目前计划在网络安全领域的开源威胁情报挖掘展开进一步实验和论文写作,欢迎交流。

本文基于2022年1月《信息安全学报》崔琳等老师的论文 基于开源信息平台的威胁情报挖掘综述 进行梳理了解。

该论文为我们提供了一个全面的开源威胁情报挖掘框架,涵盖了该领域的关键方向、技术应用及未来趋势。
注意:这篇论文发布时间稍早,最前沿的视角需要之后再去补充阅读其他相关论文。

关键词:开源威胁情报;识别提取;融合评价;关联分析


这篇综述的内容相当扎实,所以预期分几次完成阅读。

前文:【开源威胁情报挖掘1】引言 + 开源威胁情报挖掘框架 + 开源威胁情报采集与识别提取

本文为综述的第四章节,将梳理开源威胁情报挖掘技术的开源威胁情报融合评价

有助于新入领域的研究者全面理解开源威胁情报挖掘,并为细分方向的研究者提供参考,以突破现有研究的局限性。

4 开源威胁情报融合评价

本章节供了对开源威胁情报融合评价和数据融合的深入分析,关注于如何从多源异构的情报中提取高质量、可信的威胁情报。

开源威胁情报的特征与挑战

高质量的威胁情报应具备时效性、准确性、完整性、丰富性、可操作性和场景相关性。

然而,由于开源威胁情报的多源异构性,质量良莠不齐,这在存储、共享和实际应用中造成了挑战,如可能出现的漏报和误报。

4.1 开源威胁情报数据融合

数据融合是有效利用开源威胁情报的关键。目前的研究工作主要集中在:①多源异构情报的一致性分析和②去伪去重等粗粒度数据融合方法。

这些方法旨在扩展情报信息的维度,并实现对分析后的开源威胁情报的归一化封装输出。

融合处理方法

由于开源威胁情报来源的开放性,其产出具有显著的多源异构性。

近年来,众多学者对开源威胁情报的融合处理进行了大量研究,主要通过一致性分析、去伪去重及数据融合分析等操作进行改善。

4.1 开源威胁情报的质量评价

质量评价是针对开源威胁情报的可信性和可用性进行的评估,一般包括定性评价方法和定量评价方法。这些评价方法对于确保所使用的开源威胁情报的质量和可靠性至关重要。

开源威胁情报的融合评价和数据融合是提高情报质量、可信性的关键。通过有效的融合处理和精确的质量评价,可以从广泛的开源信息中提取出高质量的威胁情报。
这对于深入理解威胁攻击、扩充商业威胁情报的数据维度,以及提供更广泛有效的防御路径具有重要意义。

4.1.1 一致性分析

开源威胁情报中的一致性分析及其在本体构建中的应用。

在开源威胁情报领域,本体为同一领域内不同实体之间提供了交流和连接的语义基础,是理解和处理开源威胁情报的关键。

一致性分析通过本体构建在开源威胁情报的共享与分析中发挥关键作用。通过本体构建,可以实现数据向知识的转化,并为威胁情报的进一步处理提供坚实的基础。这种方法在促进开源威胁情报的有效利用和提高分析效率方面具有重要价值。

本体的定义与组成

在这里插入图片描述
在这里插入图片描述

根据形式化定义[50],本体包含以下元素:

  • C:代表本体概念的集合,通常用自然语言描述。
  • R:表示非上下文关系,定义了实际关系的映射。
  • C H:上下文关系的集合,定义了本体的层次结构。
  • Av:本体上公理的集合。
本体构建的层次

本体构建层次可以参考图 4,其中安全情报本体作为情报知识图谱构建的核心层次。本体构建是将信息抽取得到的实体及其关系转化为知识网络的过程,同时,本体中定义的约束与规则为后续的质量评估和知识推理提供基础[51]。

在这里插入图片描述

实现方法:

  • 本体复用:利用已有的本体作为构建的基础。
  • 本体匹配:确保不同本体间的一致性和协调。

本体类型:

  • 基于模式的知识本体:从网络安全研究的原理、需求和规范等角度构建。
  • 基于数据的知识本体:根据现有数据的格式、内容和结构化程度构建。

应用案例:
北京航空航天大学的团队在开源威胁情报一致性分析中应用了本体,提出了描述多源异构开源威胁情报的基于本体的统一模型[52]。此外,他们还开发了一个基于该统一模型和开源情报收集工具IntelMQ的开源威胁情报集成框架。

4.1.2 去伪去重

去伪去重是开源威胁情报挖掘的一个重要环节,主要通过维度扩展和挖掘分析方法对情报数据进行提纯。

  • M. Adithya等人[53]:强调信息去冗技术在降低分布式存储中的通信和容量开销方面的重要性。

  • Edwards等人[54]:提出了一种可过滤、分类、消除重复数据、对数据项进行优先级排序的威胁情报系统的想法。

  • Brown等人[55]:强调在使用开源威胁情报系统之前,必须进行去重等操作,以避免增加安全运营人员的工作量。

  • 方法与挑战
    去重主要通过快速匹配算法从各种数据集中识别出匹配记录,并从属性、关系或数据内容等维度上进行合并。其效果受到数据质量、缩略词使用或语言差异等多种因素的影响。

4.1.3 数据融合分析

数据融合分析通过机器学习等方法对原始情报信息进行关联融合处理,以获得具有时效性、准确性、完整性的高质量威胁情报。

  • Modi等人[56]:提出了一个自动开源威胁情报融合框架,利用聚类技术对内容相似的情报数据进行聚合关联。
  • Azevedo等人[57]:采用簇聚合技术,关联并聚合不同开源情报源中的相似IOC信息。
  • 文献[58]:结合NLP和智能分析技术,设计了一种基于多源情报信息融合的高质量开源威胁情报生成工具。该工具综合运用一致性分析, 去伪去重等常见的粗粒度数据融合分析手段, 并结合了 SVM、贝叶斯推断等高阶数据分析技术, 可针对威胁情报数据进行清洗、集成、整合处理。但其数据融合方法手段及关联应用效率还尚待进一步提升。
  • 展望
    未来,随着数据量的增加,基于深度学习的数据融合方法将因其在处理海量数据上的优势而得到广泛应用。
    传统的数据融合技术,如贝叶斯推理、卡尔曼过滤、机器学习等,将继续在提高威胁情报质量方面发挥重要作用。

4.2 开源威胁情报质量及可信性评价

专注于开源威胁情报的质量及可信性评价,特别是定性评价方法的应用和重要性。

在网络安全领域,对开源威胁情报的质量和可信性进行评估对于辅助决策和安全分析至关重要。国内外学者对此进行了广泛的研究,尤其是定性评价方法,对于理解和提升开源威胁情报的价值具有重要意义。

对开源威胁情报进行定性评价是确保其质量和可信性的重要步骤。这些评价方法不仅提供了一个全面的评估框架,还有助于深入理解情报内容的重要性和应用价值。对于网络安全专家来说,这些评价方法是提高情报使用效率和有效性的重要工具。

4.2.1 定性评价方法

定性评价方法侧重于使用非量化的标准来评估情报的质量和可用性。

  • Bouwman等人[62]:通过比较商业情报和开源数据,发现两者在情报内容上几乎没有重叠。他们指出商业威胁情报在覆盖率和及时性方面存在不足,同时提出了一种基于场景相关性、丰富性和可操作性的商业威胁情报质量定性评估方法。

  • Alessandra等人[63]:提出了一种面向开源网络威胁情报平台的定性质量评估方法。该方法根据5W3H原则提出了威胁情报应用周期中的评价标准,如收集、分析、部署阶段所需的标准,以及面向OSCTI平台的额外标准。

  • 定性评价的重要性:定性评价方法通过提供一组非量化的标准和指标,为开源威胁情报的质量提供了全面的评估框架。这些方法有助于识别情报的关键特征,如场景相关性、丰富性和可操作性,从而提升情报的实用价值和可用性。

4.2.2 定量评价方法

定量评价方法通过使用具体的量化指标来评估开源威胁情报。

开源威胁情报的定量评价方法通过引入多种量化指标和高级数据分析技术,为评估情报的质量和可信度提供了更准确、客观的视角。这些方法不仅提高了情报的使用效率和有效性,还为网络安全专家提供了重要的技术支持。

特征指标提取

从开源威胁情报的特点出发, 提取多个特征作为评价依据。

  • 文献[64]:基于3S(Semantic, Surface, and Source features)模型,提出了多维度的分析方法,包括时间、内容和领域知识三个维度来提取16个定量可信特征,并使用DBN(Deep Belief Network)算法进行可信判别。
  • 文献[65]:从情报来源、内容、活跃周期、黑名单库匹配度等维度提取特征,设计了基于深度神经网络和Softmax分类器的评价模型。
自定义的定量评价标准
  • Vector等人[66]:定义了数量、差异贡献、排他贡献、相对延迟、准确性、覆盖范围等度量标准。

  • Thomas等人[67]:定义了扩展性、保持性、误报率、可验证性等10个定量参数。

  • Schlette等人[68]:将威胁情报评价维度划分为属性级、对象级、报告级,并形成一个可量化的评估体系。

  • Griffioen等人[69]:关注于开源威胁情报的质量评价。作者在该研究中定义了四种类型的威胁情报质量评价指标:及时性、敏感性、原创性和影响力。基于这些评价指标,他们引入了一种改进的分类方法来对威胁情报实现定量评估。
    这种方法有助于对开源威胁情报的质量进行更为精确和全面的评价。

  • 文献70:提出了一种基于用户视角建立的开源威胁情报服务评估方法。该方法将威胁情报视为一种特殊的服务,其质量评价包括价格、功能、性能和质量、服务、资格等五个维度。此外,该方法基于假设,即人们更容易相信大多数人给出的信息的真实性,提出基于多数威胁情报使用者的意见和评价来衡量情报的可信度。
    这种方法通过用户反馈来动态调整检测项目的权重和得分,从而获得更为精确的情报质量评价结果。

  • Omar等人[71]:提出了情报质量指数(Quality of Indicators, QoI)的概念,用于评估开源威胁情报共享参与者的贡献水平。QoI评估方法涉及的指标包括正确性、相关性、实用性和唯一性,采用基准方法定义,并利用机器学习算法进行质量评价。
    这种方法特别关注于评估参与者对开源威胁情报共享的贡献,有助于提高共享质量和鼓励更积极的参与。

图挖掘技术的应用
  • 文献[72]:提出从图挖掘角度评估异构开源威胁情报的可信水平,构建了异构开源威胁情报图。
  • Roland等人[73]:提出了OSCTI源排序方法FeedRank,利用图模拟feed之间的关系,并对每个OSCTIF的贡献度进行量化分析。
  • 文献[74]:提出了基于知识表示算法TransE模型和RNN模型的可信评估模型,构建了一个情报知识图谱。

4.3 总结与讨论

开源威胁情报的数据融合、质量和可信性评价是保障其有效性和可靠性的关键。
这一领域的研究可以分为定性评价定量评价两个主要方向。

表 3 所示, 其中每一行代表一项研究工作,
第 1 列代表不同的研究方向;
第 3 列为主要的技术应用场景;
第 4 列为实现该项研究所应用的技术方法, 主要从数学模型以及评价技术两个方向进行归纳分析;
第 5 列为性能评估;
第 6 列为通过总结优缺点对该项研究工作的评价。

在这里插入图片描述

数据融合与质量评价的方法和技术

  • 机器学习与神经网络:在定性评价中,机器学习和神经网络模型被广泛应用。例如,文献[64-65]利用这些技术在多维度上提取特征指标。

  • 加权平均模型:在定量评价方面,加权平均模型常用于权衡各指标的重要性。文献[68,70]主要使用了加权平均数学模型对情报质量进行量化评估。

  • 图挖掘技术:有向图或知识图谱等技术逐渐成为新兴的情报质量度量方法。文献[72-74]采用图挖掘方法,如文献[72-73]使用有向图和PageRank算法,而文献[74]应用知识图谱进行评估建模。

性能评估与研究评价

  • 表3中的比较分析显示,不同的技术和方法有其独特的优点和局限性。例如,机器学习在处理大规模数据集时表现出色,而加权平均模型在考虑多个评价指标时更加灵活。

研究和应用的前景

  • 这些研究成果为开源威胁情报的质量评价和可信度打分提供了有效的技术支持,减少了人力需求,并帮助组织筛选出高质量、准确可信的威胁情报。

prompt:阅读梳理文献的尝试

结合chatgpt阅读梳理文献。

我现在在调研网安领域的威胁情报,以期待找到能做命名实体识别or关系抽取的任务。

我现在是阅读一篇论文《基于开源信息平台的威胁情报挖掘综述》,请梳理这段话,表达专业明了,保留参考文献,我需要更详细的内容,形成博客,方便阅读理解和后续思路整理。

请介绍新型网络安全威胁类型:APT、多态威胁、零日威胁、复合威胁,通过实际场景来说明,并之处其中存在的命名实体识别、关系抽取任务

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/187631.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[SWPUCTF 2021 新生赛]PseudoProtocols

题目很明确了就是伪协议 php://filter/convert.base64-encode/resourcehint.php 提交的伪协议的内容需要是 I want flag,就会echo flag 方法1:adata://text/plain,I want flag 方法2:adata://text/plain;base64,SSB3YW50IGZsYWc

KAO2 入门到熟练 看这一篇文章就够了

KOA 介绍 官网地址: https://koa.bootcss.com/ Koa 是一个新的 web 框架,由 Express 幕后的原班人马打造, 致力于成为 web 应用和 API 开发领域中的一个更小、更富有表现力、更健壮的基石。 通过利用 async 函数,Koa 帮你丢弃回调…

万字解析设计模式之策略模式、命令模式

一、策略模式 1.1概述 先看下面的图片,我们去旅游选择出行模式有很多种,可以骑自行车、可以坐汽车、可以坐火车、可以坐飞机。 策略模式(Strategy Pattern)是一个行为型设计模式,它定义了一组算法家族,分…

看Spring源码不得不会的@Enable模块驱动实现原理讲解

这篇文章我想和你聊一聊 spring的Enable模块驱动的实现原理。 在我们平时使用spring的过程中,如果想要加个定时任务的功能,那么就需要加注解EnableScheduling,如果想使用异步的功能,那就要加EnableScheduling注解,其实…

「盘点」界面控件DevExtreme UI v23.1中的API增强

DevExtreme拥有高性能的HTML5 / JavaScript小部件集合,使您可以利用现代Web开发堆栈(包括React,Angular,ASP.NET Core,jQuery,Knockout等)构建交互式的Web应用程序。从Angular和Reac&#xff0c…

【赠书第10期】从概念到现实:ChatGPT和Midjourney的设计之旅

文章目录 前言 1 ChatGPT的崛起 2 Midjourney的探索 3 技术创新的交汇 4 对未来的影响 5 结论 6 推荐图书 7 粉丝福利 前言 在过去的几年里,自然语言处理和聊天模型的领域取得了飞速的发展。ChatGPT 作为一个由OpenAI 开发的大型语言模型,以其强…

【opencv】计算机视觉基础知识

目录 前言 1、什么是计算机视觉 2、图片处理基础操作 2.1 图片处理:读入图像 2.2 图片处理:显示图像 2.3 图片处理:图像保存 3、图像处理入门基础 3.1 图像成像原理介绍 3.2 图像分类 3.2.1 二值图像 3.2.2灰度图像 3.2.3彩色图像…

算法与数据结构有区别吗?

算法和数据结构并不是同一件事。严格来说,它们并不是等效的。但是,我们通常在使用的时候会互换这两个术语。为了简便,后文我们会用数据结构这个术语来指代“数据结构及其所有相关的方法”。 有很多方法可以用来说明这两个术语之间的区别&…

企业软件手机app定制开发趋势|小程序网站搭建

企业软件手机app定制开发趋势|小程序网站搭建 随着移动互联网的快速发展和企业数字化转型的加速,企业软件手机App定制开发正成为一个新的趋势。这种趋势主要是由于企业对于手机App的需求增长以及现有的通用应用不能满足企业特定需求的情况下而产生的。 1.企业软件手…

​iOS Class Guard github用法、工作原理和安装详解及使用经验总结

iOS Class Guard是一个用于OC类、协议、属性和方法名混淆的命令行工具。它是class-dump的扩展。这个工具会生成一个symbol table,这个table在编译期间会包含进工程中。iOS-Class-Guard能有效的隐藏绝大多数的类、协议、方法、属性和 实例变量 名。 iOS-Class-Guard不…

在 S/4HANA、ECC 和 ERP 上轻松扩展或简化 SAP WM,并将其自动化到移动环境中

为您的 SAP WM 提供完整的本地 SAP 图形用户界面 基于原生通道架构(NCA),iOS、Android 和手持 Scanguns 版 Liquid UI 可与 SAP WM 原生连接,同时保留 SAP GUI 丰富的事务处理功能。它使您无需编程即可直接从移动设备访问 MIGO、…

安全意识成熟度模型

安全意识成熟度模型是指导企业组织有效识别、管理和衡量团队和员工的安全意识风险,评估和衡量团队和员工的安全意识的评估模型。这套模型是多年以来通过对200多个具有安全意识的职员进行调研后建立的,安全意识成熟度模型使组织能够确定当前安全意识的成熟…

深度学习——激活函数汇总

深度学习——激活函数汇总 一、ReLU 一、ReLU 参考资料: https://zhuanlan.zhihu.com/p/428448728

C++核心编程——运算符重载

C核心编程——运算符重载 运算符重载的方法运算符重载函数作成员函数与友元函数重载双目运算符重载单目运算符重载流插入运算符和"<<"和流提取运算符">>"重载流插入运算符和"<<"流提取运算符">>" 运算符重载的…

LabVIEW开发自适应降噪ANC

LabVIEW开发自适应降噪ANC 在许多情况下&#xff0c;信号很嘈杂&#xff0c;必须消除噪声。自适应降噪&#xff08;ANC&#xff09;是可用于消除信号噪声的主要实时方法之一。可以使用LabVIEW自适应滤滤器工具包来设计ANC应用程序。本文介绍使用自适应筛选器工具包的ANC的一些…

【深度学习】概率图模型(二)有向图模型详解(条件独立性、局部马尔可夫性及其证明)

文章目录 一、有向图模型1. 贝叶斯网络的定义2. 条件独立性及其证明a. 间接因果关系 X 3 → X 2 → X 1 X_3 \rightarrow X_2 \rightarrow X_1 X3​→X2​→X1​b. 间接果因关系 X 1 → X 2 → X 3 X_1 \rightarrow X_2 \rightarrow X_3 X1​→X2​→X3​c. 共因关系 X 1 ← X…

android上架之获取平台公钥、签名 MD5 值

app上架需要用到的两个参数公钥、签名 MD5 步骤 1. 下载jadx-gui 工具&#xff0c;下载 2. 下载成后&#xff0c;解压压缩包&#xff0c;双击 jadx-gui-1.4.7.exe 运行。 3. 运行后&#xff0c;在页面左上方单击文件 > 打开文件&#xff0c;打开 APK 包 4. 打开 APK 包后…

Jvm常见问题

1. 为什么用元空间替换永久代 避免OOM异常&#xff1a;永久代中存放了很多JVM需要的类信息&#xff0c;这些数据大多数是不会被清理的&#xff0c;所以Full GC往往无法回收多少空间。而永久代的空间是有限的&#xff0c;如果经常加载新的类进来或者频繁的创建和删除类&#xf…

前端页面转pdf

首先&#xff0c;需要安装两个库 html2canvasjspdf 先引入这个公用的html转pdf的方法 /**path:src/utils/htmlToPdf.jsname:导出页面为pdf格式 **/ import html2Canvas from "html2canvas1.4.1"; import JsPDF from "jspdf2.5.1";const htmlToPdf {get…

2.Ansible的copy模块,我最常用的模块

1. 简述 先从我自身的情况来说&#xff0c;我不是运维人员&#xff0c;并且对linux操作也不是特别熟悉&#xff0c;所以工作中我使用ansible基本就是在平常的自动化部署中&#xff0c;而使用最多的模块就是copy模块。我使用copy模块也主要是来替换生产环境的配置文件。所以&am…