[论文阅读] (34)ESWA2024 基于SGDC的轻量级入侵检测系统

《娜璋带你读论文》系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢。由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学术路上期待与您前行,加油。

该文是贵大0624团队论文学习笔记,分享者吴炫璋同学,未来我们每周至少分享一篇论文笔记。前一篇博客总结了NDSS 2024系统安全和恶意代码分析方向相关论文。这篇文章将带来ESWA’24韩国忠北大学的轻量级入侵检测论文,本文的主要贡献为结合特征工程开发更轻量级、准确高效的IDS,并且能够检测广泛的网络攻击,适合在资源受限且少样本标注的IoT设备上运行。此外,由于我们还在不断成长和学习中,写得不好的地方还请海涵,希望这篇文章对您有所帮助,这些大佬真值得我们学习。fighting!

  • 欢迎关注作者新建的『网络攻防和AI安全之家』知识星球(文章末尾)

在这里插入图片描述

原文作者:Jahongir Azimjonov, Taehong Kim
原文标题:Stochastic gradient descent classifier-based lightweight intrusion detection systems using the efficient feature subsets of datasets
原文链接:https://www.sciencedirect.com/science/article/abs/pii/S0957417423019954
发表会议:Expert Systems with Applications 2024
笔记作者:贵大0624团队 吴炫璋
开源代码:SGDC-basedLightweightIDS

  • https://github.com/JahongirAzimjonov/Lightweight-IDS-based-on-SGD-Classifier-and-Ridge-Regressor

一.摘要

物联网(IoT)已成为现代生活中不可或缺的一部分。然而,随着IoT设备的广泛应用,针对资源受限IoT设备的僵尸网络攻击数量也在不断增加。为应对这些威胁,研究人员开发了入侵检测系统(IDS)。然而,基于深度/机器学习、模糊逻辑、粗糙集理论或数据挖掘技术的传统IDS通常在检测准确性和能效方面存在不足。因此,亟需轻量化、高精度且能效优异的IDS,以有效检测多种网络攻击类型。

本文提出了一种解决方案,通过使用随机梯度下降分类器(SGDC)和基于岭回归的四种特征选择算法构建轻量化、高精度的IDS。为提升IDS的检测精度并降低计算复杂度,本文对SGDC算法和岭回归模型的超参数进行了优化。此外,优化后的特征选择算法用于降低数据集的维度,从而进一步提升IDS的检测精度。

为验证所提IDS的有效性,本文选取了三种网络流量数据集(KDD-CUP-1999、BotIoT-2018和N-BaIoT-2021)进行实验评估。结果表明,该系统平均检测准确率达92.69%,特征数量平均减少了79.93%。实验结果证明,所提出的系统可作为适用于资源受限IoT设备的轻量化IDS。总体而言,本文为IoT设备的IDS研究领域做出了重要贡献,提供了一种高效、准确的解决方案。所提出的轻量化IDS有望显著提升IoT的安全性和隐私保护能力,从而保障敏感IoT数据的安全。


二.引言及相关工作

随着物联网在日常生活中的广泛应用,其安全问题日益突出。特别是针对资源受限的IoT设备的僵尸网络攻击呈现上升趋势,DoS、DDoS、侦察和盗窃等多种形式。IoT网络由于安全协议薄弱和设备保护不足,特别容易受到这些攻击的威胁。

在这里插入图片描述

本文将目前的入侵检测系统分为传统IDS和轻量级IDS:

  • 传统IDS:资源消耗大,算法复杂,检测能力强,适用于大型网络
  • 轻量级IDS:资源消耗小,算法简单,但检测复杂攻击的能力较弱,适用于物联网设备

现有的IDS存在的局限性又有以下两点

  • 传统的基于机器学习的IDS 忽视了特征工程的作用,理论研究不足
  • 现有轻量级IDS无法捕获真实网络的攻击行为,准确性和鲁棒性存在不足

因此,开发一个轻量级并且能准确识别真实网络攻击行为的IDS迫在眉睫。研究需求:

  • 结合特征工程开发更轻量级、准确和高效的IDS;能够检测广泛的网络攻击
  • 适合在资源受限且少样本标注的IoT设备上运行;需要提高检测准确率和能源效率

在这里插入图片描述

本文的研究目标及创新点为开发轻量级和准确性高的入侵检测系统(IDS),使其能在资源受限的IoT设备上运行。具体通过以下方式实现:

  • 构建随机梯度下降分类器(SGDC)和基于岭回归模型的四种特征选择算法
  • 使用网格搜索方法优化SGDC算法和岭回归模型的超参数,以提高检测准确性并降低计算复杂度
  • 利用模型微调的特征选择器来降低数据集的维度以实现轻量化的IDS

三.系统整体框架

本文设计的框架如下图所示:

  • 数据预处理
  • 构建四种基于岭回归的特征选择方法,使用网格搜索方法优化岭回归模型的超参数,能有效抽取最相关且多维度的特征子集
  • 构建基于SGDC的入侵检测模块,使用网格搜索方法优化SGDC模型的超参数,能有效优化损失函数
  • 利用多种性能评估指标和对比分析方法来评估和选择性能最佳的模型

在这里插入图片描述

总体算法如下:

在这里插入图片描述


四.算法及系统实现细节

1.网格搜索方法

网格搜索(Grid Search)是一种超参数优化方法,本文用于岭回归模型和SGDC的超参数优化,网格搜索通过遍历所有可能的超参数组合,并使用交叉验证评估每组超参数的性能,最终选择最优的超参数配置。这种优化帮助基于岭回归模型的四种特征选择方法更好的提取高效特征子集,并帮助SGDC分类器在各个数据集上取得了良好的性能,同时保持了模型的轻量级特性。

在这里插入图片描述


2.特征选择

文中提到了四种基于岭回归的特征选择方法,其作用是计算特征与目标之间的关系系数,从数据集中选取出最相关和最有效的特征子集。

  • 基于重要性系数的特征选择算法 (Importance-coefficient-based feature selection)
  • 前向序列特征选择算法 (Forward-sequential feature selection)
  • 后向序列特征选择算法 (Backward-sequential feature selection)
  • 基于相关系数的特征选择算法 (Correlation-coefficient-based feature selection)

这些方法通过分析输入特征(自变量)和输出标签(因变量)之间的关系来评估每个特征的影响,基于计算出的重要系数来确定最相关和最有效的特征,通过消除不相关和低效的特征来优化特征集。不同类型的方法可以从不同角度评估特征的重要性,这些算法平均减少了79.93%的特征维度,同时保持了较高的入侵检测准确率(平均92.69%),特别是在处理时间和准确性方面都表现良好。

具体算法如下,算法输出是数据集中最相关和最高效特征的子集集合。

在这里插入图片描述

(1)基于重要性系数的特征选择如下,通过计算特征重要性系数ci和排序,从数据集中选择最相关且高效的特征子集。

在这里插入图片描述

(2)前向和后向序列特征选择算法如下,分别选择相关性最高的特征添加到集合、将相关性最低的特征从集合中消除。例如,KDD-CUP-1999和N-BaIoT-2021数据集分别有40个和115个特征。其中一些特征对SGDC和岭回归器的准确性有正面影响,而另一些则有负面影响。对岭回归模型和SGDC准确性有正面影响的特征应保留为有效特征,而对准确性有负面影响的特征应从数据集的子集中移除。该算法有助于选择对准确性有正面影响的特征,并剔除无效特征。

在这里插入图片描述

(3)构建通过后向消元的相关系数特征选择算法,该方法首先定义所有特征的集合𝑋和目标变量𝑦,同时设定一个显著性水平(𝑝值),通常为0.05。初始特征集𝑋1最初被设置为完整的特征集合𝑋。该算法逐步消除特征,直到没有特征的相关系数的𝑝值大于设定的显著性水平0.05为止。最终,该算法返回基于与目标变量的相关性和显著性水平选择的最终特征集。

在这里插入图片描述


3.SGDC

SGDC(stochastic gradient descent classifier )是一个线性分类模型,它使用随机梯度下降来优化损失函数。与传统SVM和SVC不同,SGDC只使用部分训练集来优化损失函数,其适用于大规模样本的场景,作为轻量级分类器,适合部署在资源受限的IoT设备上。

随机梯度下降法:随机梯度下降法是一种迭代优化方法,通过计算损失函数相对于模型参数的梯度,来寻找损失函数的最小值或最大值

基于SGDC的入侵检测模块算法如下:

在这里插入图片描述


五.实验评估

1.数据集及预处理

该论文的数据集为3个IOT入侵检测数据集。

  • KDD-CUP-1999
    http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
  • BotIoT-2018
    https://research.unsw.edu.au/projects/bot-iot-dataset
  • N-BaIoT-2021
    http://archive.ics.uci.edu/ml/datasets/detection_of_IoT_botnet_attacks_N_BaIoT

在基于SGDC的机器学习模型中,导致过拟合或欠拟合的主要问题之一是数据的类别不平衡。作者选取的三个数据集中都存在数据类别不平衡的问题,作者做了以下处理:

  • KDD-1999:97,277个正常包 vs 396,743个攻击包,处理方法:通过删除重复记录来平衡数据集
  • BoTIoT-2018:477正常包 vs 5000攻击包,处理方法:从恶意数据包中选择5000个样本,保留全部正常数据包
  • N-BaIoT-2021:62,154个正常包 vs 766,106个攻击包,处理方法:使用下采样(down-sampling)技术

在这里插入图片描述


2.评估结果

在不同数据集上不同算法运行时间对比:基于重要系数的特征选择方法在前两个数据集运行最快,基于后向序列的特征选择方法时间表现性能最差。

在这里插入图片描述

数据集原始特征集子集(a, b, c)特征重要性系数(IPs)的直方图如下,子集通过选择特征重要性系数(IPs)大于或等于所有特征平均IP的特征构建而成。

在这里插入图片描述

训练特征子集的预测结果如下,四种特征选择方法均优于所有特征。

在这里插入图片描述

最后给出性能评估比较图。实验结果表明,基于SGDC的IDS在高效特征子集对比完整特征集上的训练和测试速度分别提升了3-15倍和2-28倍,使用高效特征子集训练的模型预测准确率也明显高于使用完整特征集,平均准确率达到了92.69%,特别是特别是前向序列法在N-BaIoT-2021数据集上达到了98.42%的最高准确率。

在这里插入图片描述

三种数据集全特征训练的准确率分别为30.65%、77.84%和68.90%,特征选择方法均有一定程度提升。在KDD-CUP-1999完整数据集上训练的模型表现最差,可能原因是数据集中存在低效和无关特征,在使用前向序列法在N-BaIoT-2021提取的特征子集进行训练后达到了98.42%的最高准确率。

在这里插入图片描述


六.总结及个人感受

目前尚且有着几个因素会显著影响当前研究的结果,包括:

  • 数据集:需要选择特征类别更加平衡的数据集,从该文中选择的BotIoT-2018数据集可以看出,攻击类别的数据包远远高于正常类别的数据包,这就导致了在数据预处理时需要丢弃大量的攻击类别数据,很可能会影响模型的训练结果。
  • 特征选择方法:由于岭回归模型在进行特征选择时,其L2的正则化与L1正则化不同,不能将某些权重完全置0,所以存在不能去除部分冗余特征的情况,所以可以选择一些例如Lasso 回归等使用添加L1正则化项的线性回归方法来进行特征选择。
  • 分类算法:文中使用网格搜索算法来选择最优超参数,其核心思想是穷举,这种方法计算成本过高,在参数取值范围和维度较高时,时间和空间复杂度都会很高,所以可以将其替换为例如随机搜索等算法,对于高维度参数空间,随机搜索往往能用更少的计算找到接近更优的参数。

总之,该文提出了一种基于SGDC的轻量级IDS,并使用基于岭回归的特征选择方法来提取高效的特征子集。整篇论文特征工程值得我们学习,包括部分对比实验,尤其开源代码可供大家学习。当然也存在不足之处,比如和代表性方法的对比实验缺少,无法证明论文的创新。

最后祝大家新年快乐,不忙的时候写篇年终总结。

在这里插入图片描述

2024年4月28日是Eastmount的安全星球——『网络攻防和AI安全之家』正式创建和运营的日子,该星球目前主营业务为 安全零基础答疑、安全技术分享、AI安全技术分享、AI安全论文交流、威胁情报每日推送、网络攻防技术总结、系统安全技术实战、面试求职、安全考研考博、简历修改及润色、学术交流及答疑、人脉触达、认知提升等。下面是星球的新人券,欢迎新老博友和朋友加入,一起分享更多安全知识,比较良心的星球,非常适合初学者和换安全专业的读者学习。

目前收到了很多博友、朋友和老师的支持和点赞,尤其是一些看了我文章多年的老粉,购买来感谢,真的很感动,类目。未来,我将分享更多高质量文章,更多安全干货,真心帮助到大家。虽然起步晚,但贵在坚持,像十多年如一日的博客分享那样,脚踏实地,只争朝夕。继续加油,再次感谢!

(By:Eastmount 2024-12-30 周一夜于贵阳 http://blog.csdn.net/eastmount/ )


前文赏析:

  • [论文阅读] (01)拿什么来拯救我的拖延症?初学者如何提升编程兴趣及LATEX入门详解
  • [论文阅读] (02)SP2019-Neural Cleanse: Identifying and Mitigating Backdoor Attacks in DNN
  • [论文阅读] (03)清华张超老师 - GreyOne: Discover Vulnerabilities with Data Flow Sensitive Fuzzing
  • [论文阅读] (04)人工智能真的安全吗?浙大团队外滩大会分享AI对抗样本技术
  • [论文阅读] (05)NLP知识总结及NLP论文撰写之道——Pvop老师
  • [论文阅读] (06)万字详解什么是生成对抗网络GAN?经典论文及案例普及
  • [论文阅读] (07)RAID2020 Cyber Threat Intelligence Modeling Based on Heterogeneous GCN
  • [论文阅读] (08)NDSS2020 UNICORN: Runtime Provenance-Based Detector for Advanced Persistent Threats
  • [论文阅读] (09)S&P2019 HOLMES Real-time APT Detection through Correlation of Suspicious Information Flow
  • [论文阅读] (10)基于溯源图的APT攻击检测安全顶会总结
  • [论文阅读] (11)ACE算法和暗通道先验图像去雾算法(Rizzi | 何恺明老师)
  • [论文阅读] (12)英文论文引言introduction如何撰写及精句摘抄——以入侵检测系统(IDS)为例
  • [论文阅读] (13)英文论文模型设计(Model Design)如何撰写及精句摘抄——以入侵检测系统(IDS)为例
  • [论文阅读] (14)英文论文实验评估(Evaluation)如何撰写及精句摘抄(上)——以入侵检测系统(IDS)为例
  • [论文阅读] (15)英文SCI论文审稿意见及应对策略学习笔记总结
  • [论文阅读] (16)Powershell恶意代码检测论文总结及抽象语法树(AST)提取
  • [论文阅读] (17)CCS2019 针对PowerShell脚本的轻量级去混淆和语义感知攻击检测
  • [论文阅读] (18)英文论文Model Design和Overview如何撰写及精句摘抄——以系统AI安全顶会为例
  • [论文阅读] (19)英文论文Evaluation(实验数据集、指标和环境)如何描述及精句摘抄——以系统AI安全顶会为例
  • [论文阅读] (20)USENIXSec21 DeepReflect:通过二进制重构发现恶意功能(恶意代码ROI分析经典)
  • [论文阅读] (21)S&P21 Survivalism: Systematic Analysis of Windows Malware Living-Off-The-Land (经典离地攻击)
  • [论文阅读] (22)图神经网络及认知推理总结和普及-清华唐杰老师
  • [论文阅读] (23)恶意代码作者溯源(去匿名化)经典论文阅读:二进制和源代码对比
  • [论文阅读] (24)向量表征:从Word2vec和Doc2vec到Deepwalk和Graph2vec,再到Asm2vec和Log2vec(一)
  • [论文阅读] (25)向量表征经典之DeepWalk:从Word2vec到DeepWalk,再到Asm2vec和Log2vec(二)
  • [论文阅读] (26)基于Excel可视化分析的论文实验图表绘制总结——以电影市场为例
  • [论文阅读] (27)AAAI20 Order Matters: 二进制代码相似性检测(腾讯科恩实验室)
  • [论文阅读] (28)李沐老师视频学习——1.研究的艺术·跟读者建立联系
  • [论文阅读] (29)李沐老师视频学习——2.研究的艺术·明白问题的重要性
  • [论文阅读] (30)李沐老师视频学习——3.研究的艺术·讲好故事和论点
  • [论文阅读] (31)李沐老师视频学习——4.研究的艺术·理由、论据和担保
  • [论文阅读] (32)南洋理工大学刘杨教授——网络空间安全和AIGC整合之道学习笔记及强推(InForSec)
  • [论文阅读] (33)NDSS2024 Summer系统安全和恶意代码分析方向相关论文汇总
  • [论文阅读] (34)EWAS2024 基于SGDC的轻量级入侵检测系统

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/65734.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入解析:谱分解、SVD与PCA在算法中的应用与实现

特征值分解(EVD)、奇异值分解(SVD)和主成分分析(PCA)是矩阵分解技术的三种重要形式,它们在人工智能中扮演了关键角色。随着数据维度的快速增长和信息复杂度的提升,这些技术为处理高维…

[2025] 如何在 Windows 计算机上轻松越狱 IOS 设备

笔记 1. 首次启动越狱工具时,会提示您安装驱动程序。单击“是”确认安装,然后再次运行越狱工具。 2. 对于Apple 6s-7P和iPad系列(iOS14.4及以上),您应该点击“Optinos”并勾选“允许未经测试的iOS/iPadOS/tvOS版本”&…

【笔记】在虚拟机中通过apache2给一个主机上配置多个web服务器

(配置出来的web服务器又叫虚拟主机……) 下载apache2 sudo apt update sudo apt install apache2 (一)ip相同 web端口不同的web服务器 进入 /var/www/html 创建站点一和站点二的目录文件(目录文件名自定义哈&#x…

vim里搜索关键字

vim是linux文本编辑器的命令,再vi的基础上做了功能增强 使用方法如下 1. / 关键字, 回车即可, 按n键查找关键字下一个位置 2.? 关键字, 回车即可, 按n键查找关键字下一个位置 3.示例

小程序中引入echarts(保姆级教程)

hello hello~ ,这里是 code袁~💖💖 ,欢迎大家点赞🥳🥳关注💥💥收藏🌹🌹🌹 🦁作者简介:一名喜欢分享和记录学习的在校大学生…

15-利用dubbo远程服务调用

本文介绍利用apache dubbo调用远程服务的开发过程,其中利用zookeeper作为注册中心。关于zookeeper的环境搭建,可以参考我的另一篇博文:14-zookeeper环境搭建。 0、环境 jdk:1.8zookeeper:3.8.4dubbo:2.7.…

一个最简单的ios程序(object_c)的编写

前言 如何在苹果系统MacOS创建一个简单的ios(iphone)程序,貌似非常的简单。但是,作为习惯了Windows开发的程序员来说,有时候还觉得有点麻烦,至少开始有点很不习惯。 本博文试着把这个过程展现一下&#xff…

Rabbitmq追问2

分析rabbitmq 默认使用姿势是什么 direct fanout还是什么 public void convertAndSend(String exchange, String routingKey, Object object, CorrelationData correlationData) throws AmqpException { this.send(exchange, routingKey, this.convertMessageIfNecessary(obje…

[文献阅读]ReAct: Synergizing Reasoning and Acting in Language Models

文章目录 摘要Abstract:思考与行为协同化Reason(Chain of thought)ReAct ReAct如何协同推理 响应Action(动作空间)协同推理 结果总结 摘要 ReAct: Synergizing Reasoning and Acting in Language Models [2210.03629] ReAct: Synergizing Reasoning an…

Rocky Linux下安装meld

背景介绍: meld是一款Linux系统下的用于 文件夹和文件的比对软件,非常常用; 故障现象: 输入安装命令后,sudo yum install meld,报错。 12-31 22:12:17 ~]$ sudo yum install meld Last metadata expirat…

【亚马逊云】基于Amazon EC2实例部署 NextCloud 云网盘并使用 Docker-compose 搭建 ONLYOFFICE 企业在线办公应用软件

文章目录 1. 部署EC2实例2. 安装 Docker 服务3. 安装docker-compose4. 创建Docker-compose文件5. 创建nginx.conf文件6. 运行docker-compose命令开始部署7. 访问ONLYOFFICE插件8. 访问NextCloud云盘9. 下载并启用ONLYOFFICE插件10. 上传文件测试11. 所遇问题12. 参考链接 1. 部…

揭秘文件上传漏洞之操作原理(Thoughts on File Upload Vulnerabilities)

从上传到入侵:揭秘文件上传漏洞之操作原理 大家好,今天我们来聊一个"老而弥坚"的漏洞类型 —— 文件上传漏洞。虽然这个漏洞存在很多年了,但直到现在依然频频出现在各种漏洞报告中。今天我们就来深入了解一下它的原理和各种校验方…

哈夫曼编码(Huffman Coding)与哈夫曼树(Huffman Tree)

已知字符集{a,b,c,d,e,f},若各字符出现的次数分别为6,3,8,2,10,4,则对应字符集中各字符的哈夫曼编码可能是( )。 A.00,1011,01&#xff0…

R语言入门笔记:第一节,快速了解R语言——文件与基础操作

关于 R 语言的简单介绍 上一期 R 语言入门笔记里面我简单介绍了 R 语言的安装和使用方法,以及各项避免踩坑的注意事项。我想把这个系列的笔记持续写下去。 这份笔记只是我的 R 语言入门学习笔记,而不是一套 R 语言教程。换句话说:这份笔记不…

微信小程序调用 WebAssembly 烹饪指南

我们都是在夜里崩溃过的俗人,所幸终会天亮。明天就是新的开始,我们会变得与昨天不同。 一、Rust 导出 wasm 参考 wasm-bindgen 官方指南 https://wasm.rust-lang.net.cn/wasm-bindgen/introduction.html wasm-bindgen,这是一个 Rust 库和 CLI…

自动驾驶3D目标检测综述(六)

停更了好久终于回来了(其实是因为博主去备考期末了hh) 这一篇接着(五)的第七章开始讲述第八章的内容。第八章主要介绍的是三维目标检测的高效标签。 目录 第八章 三维目标检测高效标签 一、域适应 (一)…

计算机毕业设计hadoop+spark+hive图书推荐系统 豆瓣图书数据分析可视化大屏 豆瓣图书爬虫 知识图谱 图书大数据 大数据毕业设计 机器学习

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

极品飞车6的游戏手柄设置

极品飞车,既可以用键盘来控制车辆的前进、后退、左转、右转、加速与减速,也可以使用游戏手柄来操作车辆的运行。需要注意的是,极品飞车虽然支持手柄,但是仅支持常见的北通、罗技还有部分Xbox系列的手柄,至于其他的PS4手…

虚拟机Centos下安装Mysql完整过程(图文详解)

目录 一. 准备工作 1. 设置虚拟机静态IP 2. 卸载Mysql 3. 给CentOS添加rpm源 二. 安装MySQL 1. 安装mysql服务 2. 启动mysql服务 3. 开启MySQL开机自启动 4. 查看mysql服务状态 5. 查看mysql初始密码 6. 登录mysql ,修改密码 7. 允许外部访问MySQL数据库…

VITUREMEIG | AR眼镜 算力增程

根据IDC发布的《2024年第三季度美国AR/VR市场报告》显示,美国市场AR/VR总出货量增长10.3%。其中,成立于2021年的VITURE增长速度令人惊艳,同比暴涨452.6%,成为历史上增长最快的AR/VR品牌。并在美国AR领域占据了超过50%的市场份额&a…