【深度学习】【机器学习】用神经网络进行入侵检测,NSL-KDD数据集,基于机器学习(深度学习)判断网络入侵

文章目录

  • 下载数据集NSL-KDD
  • 数据集介绍
  • 输入的41个特征
  • 输出的含义
  • 数据处理&&训练技巧
  • 建神经网络,输入41个特征,输出是那种类别的攻击
  • 模型训练
  • 模型推理
  • 写gradio前端界面,用户自己输入41个特征,后端用模型推理计算后显示出是否是dos攻击。
  • 使用方法:
  • 获取代码和模型

【深度学习】用神经网络进行入侵检测,NSL-KDD数据集,用TCP连接特征判断是否是网络入侵

下载数据集NSL-KDD

NSL-KDD数据集,有dos,u2r,r21,probe等类型的攻击,和普通的正常的流量,即是这样:

Normal:正常记录
DOS:拒绝服务攻击
PROBE:监视和其他探测活动
R2L:来自远程机器的非法访问
U2R:普通用户对本地超级用户特权的非法访问

数据集样子:

在这里插入图片描述

数据集介绍

https://towardsdatascience.com/a-deeper-dive-into-the-nsl-kdd-data-set-15c753364657
https://mathpretty.com/10244.html

输入的41个特征

下面是对TCP连接的41个特征的介绍:

特征编号特征名称特征描述类型范围
1duration连接持续时间,从TCP连接建立到结束的时间,或每个UDP数据包的连接时间连续[0, 58329]秒
2protocol_type协议类型,可能值为TCP, UDP, ICMP离散-
3service目标主机的网络服务类型,共70种可能值离散-
4flag连接状态,11种可能值,表示连接是否按照协议要求开始或完成离散-
5src_bytes从源主机到目标主机的数据的字节数连续[0, 1379963888]
6dst_bytes从目标主机到源主机的数据的字节数连续[0, 1309937401]
7land若连接来自/送达同一个主机/端口则为1,否则为0离散0或1
8wrong_fragment错误分段的数量连续[0, 3]
9urgent加急包的个数连续[0, 14]
10hot访问系统敏感文件和目录的次数连续[0, 101]
11num_failed_logins登录尝试失败的次数连续[0, 5]
12logged_in成功登录则为1,否则为0离散0或1
13num_compromisedcompromised条件出现的次数连续[0, 7479]
14root_shell若获得root shell 则为1,否则为0离散0或1
15su_attempted若出现"su root" 命令则为1,否则为0离散0或1
16num_rootroot用户访问次数连续[0, 7468]
17num_file_creations文件创建操作的次数连续[0, 100]
18num_shells使用shell命令的次数连续[0, 5]
19num_access_files访问控制文件的次数连续[0, 9]
20num_outbound_cmds一个FTP会话中出站连接的次数连续0
21is_hot_login登录是否属于“hot”列表,是为1,否则为0离散0或1
22is_guest_login若是guest登录则为1,否则为0离散0或1
23count过去两秒内,与当前连接具有相同的目标主机的连接数连续[0, 511]
24srv_count过去两秒内,与当前连接具有相同服务的连接数连续[0, 511]
25serror_rate过去两秒内,在与当前连接具有相同目标主机的连接中,出现“SYN”错误的连接的百分比连续[0.00, 1.00]
26srv_serror_rate过去两秒内,在与当前连接具有相同服务的连接中,出现“SYN”错误的连接的百分比连续[0.00, 1.00]
27rerror_rate过去两秒内,在与当前连接具有相同目标主机的连接中,出现“REJ”错误的连接的百分比连续[0.00, 1.00]
28srv_rerror_rate过去两秒内,在与当前连接具有相同服务的连接中,出现“REJ”错误的连接的百分比连续[0.00, 1.00]
29same_srv_rate过去两秒内,在与当前连接具有相同目标主机的连接中,与当前连接具有相同服务的连接的百分比连续[0.00, 1.00]
30diff_srv_rate过去两秒内,在与当前连接具有相同目标主机的连接中,与当前连接具有不同服务的连接的百分比连续[0.00, 1.00]
31srv_diff_host_rate过去两秒内,在与当前连接具有相同服务的连接中,与当前连接具有不同目标主机的连接的百分比连续[0.00, 1.00]
32dst_host_count前100个连接中,与当前连接具有相同目标主机的连接数连续[0, 255]
33dst_host_srv_count前100个连接中,与当前连接具有相同目标主机相同服务的连接数连续[0, 255]
34dst_host_same_srv_rate前100个连接中,与当前连接具有相同目标主机相同服务的连接所占的百分比连续[0.00, 1.00]
35dst_host_diff_srv_rate前100个连接中,与当前连接具有相同目标主机不同服务的连接所占的百分比连续[0.00, 1.00]
36dst_host_same_src_port_rate前100个连接中,与当前连接具有相同目标主机相同源端口的连接所占的百分比连续[0.00, 1.00]
37dst_host_srv_diff_host_rate前100个连接中,与当前连接具有相同目标主机相同服务的连接中,与当前连接具有不同源主机的连接所占的百分比连续[0.00, 1.00]
38dst_host_serror_rate前100个连接中,与当前连接具有相同目标主机的连接中,出现SYN错误的连接所占的百分比连续[0.00, 1.00]
39dst_host_srv_serror_rate前100个连接中,与当前连接具有相同目标主机相同服务的连接中,出现SYN错误的连接所占的百分比连续[0.00, 1.00]
40dst_host_rerror_rate前100个连接中,与当前连接具有相同目标主机的连接中,出现REJ错误的连接所占的百分比连续[0.00, 1.00]
41dst_host_srv_rerror_rate前100个连接中,与当前连接具有相同目标主机相同服务的连接中,出现REJ错误的连接所占的百分比连续[0.00, 1.00]

这个表格提供了关于TCP连接的41个特征的详细介绍,包括特征编号、特征名称、特征描述、类型以及范围。

输出的含义

数据集是一个csv表格,倒数第二列就是类别标签,大类其实就五个:

['normal', 'dos', 'probe', 'r2l', 'u2r']

但csv里写的详细的标签:
在这里插入图片描述

可以通过这个程序转换:

# 结果标签转换为数字
dos_type = ['back', 'land', 'neptune', 'pod', 'smurf', 'teardrop', 'processtable', 'udpstorm', 'mailbomb','apache2']
probing_type = ['ipsweep', 'mscan', 'nmap', 'portsweep', 'saint', 'satan']
r2l_type = ['ftp_write', 'guess_passwd', 'imap', 'multihop', 'phf', 'warezmaster', 'warezclient', 'spy', 'sendmail','xlock', 'snmpguess', 'named', 'xsnoop', 'snmpgetattack', 'worm']
u2r_type = ['buffer_overflow', 'loadmodule', 'perl', 'rootkit', 'xterm', 'ps', 'httptunnel', 'sqlattack']
type2id = {'normal': 0}
for i in dos_type:type2id[i] = 1
for i in r2l_type:type2id[i] = 2
for i in u2r_type:type2id[i] = 3
for i in probing_type:type2id[i] = 4

数据处理&&训练技巧

数据预处理

讨论原始网络数据面临的挑战:高维度、类别特征和连续特征。

使用的技术:

对类别数据(协议类型、服务和标志)进行独热编码。

标准化连续特征以处理不同的尺度。

如何处理缺失数据(如果有),通过插值或删除。

使用StandardScaler和pickle保存缩放参数以保持一致的预处理。

处理不平衡数据

讨论入侵检测数据集中的不平衡问题。

介绍ImbalancedDatasetSampler的使用及其如何帮助实现平衡的小批量。

使用此类采样器对深度学习模型训练的好处。

模型架构

解释两个提出的模型:BGRUNet2和AttentionModel。

详细介绍GRU(门控循环单元)层、双向性和注意力机制。

权重初始化技术,如Xavier和Kaiming初始化。

使用Dropout和Batch Normalization防止过拟合。

训练技巧

使用CosineAnnealingLR进行学习率调度,以适应性地调整学习率。

选择Adam优化器而非传统的SGD的原因。

损失函数的选择及其对模型训练的影响。

实验设置

数据加载器和批处理过程的描述。

利用GPU进行高效模型训练。

在训练过程中评估模型准确性和损失的过程。

建神经网络,输入41个特征,输出是那种类别的攻击

神经网络模型:


class BGRUNet2(nn.Module):def __init__(self, input_size, hidden_size, output_size):super(BGRUNet2, self).__init__()self.hidden_size = hidden_sizeself.gru = nn.GRU(input_size, hidden_size, batch_first=True, bidirectional=True)self.fc1 = nn.Linear(hidden_size * 2, 512)  # Multiply hidden size by 2 for bidirectionalself.fc2 = nn.Linear(512, 64)self.fc3 = nn.Linear(64, output_size)self.dropout = nn.Dropout(0.2)# Initialize GRU weightsfor name, param in self.gru.named_parameters():if 'weight_ih' in name:init.xavier_uniform_(param.data)elif 'weight_hh' in name:init.orthogonal_(param.data)elif 'bias' in name:param.data.fill_(0)# Initialize fully connected layer weightsinit.xavier_uniform_(self.fc1.weight)init.xavier_uniform_(self.fc2.weight)init.xavier_uniform_(self.fc3.weight)# Initialize fully connected layer biasesinit.zeros_(self.fc1.bias)init.zeros_(self.fc2.bias)init.zeros_(self.fc3.bias)def forward(self, x):# Initialize hidden state for bidirectional GRUh0 = torch.zeros(2, x.size(0), self.hidden_size).to(x.device)  # 2 for bidirectional# Forward pass through GRUout, _ = self.gru(x, h0)# Concatenate the hidden states from both directionsout = torch.cat((out[:, -1, :self.hidden_size], out[:, 0, self.hidden_size:]), dim=1)out = self.dropout(out)out = F.relu(self.fc1(out))out = self.dropout(out)out = F.relu(self.fc2(out))out = self.dropout(out)return self.fc3(out)

模型训练

训练30轮,准确度最高97.2%:

在这里插入图片描述

随着训练轮数的变化,损失的变化:

在这里插入图片描述

模型推理

加载模型后,构建输入数据,模型推导得出结果:

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = BGRUNet2(input_size=122, hidden_size=256, output_size=5)
model.load_state_dict(torch.load('model_accuracy_max.pth', map_location=device))
model.to(device)
model.eval()
time1 = time.time()
with torch.no_grad():X = X.to(device)outputs = model(X)# softmaxoutputs = F.softmax(outputs, dim=1)_, predicted = torch.max(outputs.data, 1)time2 = time.time()

写gradio前端界面,用户自己输入41个特征,后端用模型推理计算后显示出是否是dos攻击。

运行代码后访问:http://127.0.0.1:7869/

可以看到:
在这里插入图片描述

填写特征太多,有点懒得填,可以拉到最底下,有例子,可以点一下例子数据:

在这里插入图片描述

然后点一下Submit,模型推流后给出结果,可以看到,模型认为这次TCP连接数据表明了这是probe入侵,概率是1,模型推理消耗了0.002秒。

在这里插入图片描述

使用方法:

在这里插入图片描述

执行python run2.py。即可开启训练。

执行python infer.py。即可开启gradio前端界面。

获取代码和模型

go:

https://docs.qq.com/sheet/DUEdqZ2lmbmR6UVdU?tab=BB08J2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/774862.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Jenkins--在Linux上使用Docker安装

一、Jenkins 简介 Jenkins是一个流行的开源自动化服务器,用于持续集成和持续交付(CI/CD)。Jenkins的核心功能主要包括以下几点: 持续集成:Jenkins可以监控版本控制系统(如Git、SVN)中的代码变…

模型训练----加载自己的数据集,train.txt包含“路径,类别”

今天想训练一个restnet,之前我是会用文件夹的方式加载数据集,但是师兄给我的数据是用.txt文件划分的训练集和验证集,知道是要把路径和标签提取出来,搞了半天没搞成,后边找到咋搞了。 点击查看 纯真丁一郎博客点击访问…

产品经理的6个关键职责

1. 前言 本文深入探讨了产品经理的六个关键职责,全面解析了产品经理在产品开发与市场运营中的核心作用。首先,市场调研是产品经理的基础工作,通过对市场趋势、用户需求及竞争态势的深入研究,为产品决策提供有力支持。其次,产品定义及设计是产品经理的核心能力,他们需精准…

蓝桥杯:Python基础学习一

目录 一、遍历列表 1.使用for 循环和 enumerate()函数实现 2.案例代码 二、对列表进行统计和计算 1.统计数值列表的元素和 2.案例代码 三、对列表进行排序 1.使用列表对象的sort()方法 2.使用内置的 sorted()函数实现 四、列表推导式 1.从列表中选择符合条件的元素组…

Matlab|计及电池储能寿命损耗的微电网经济调度

目录 1 主要内容 储能寿命模型 负荷需求响应 2 部分代码 3 程序结果 4 下载链接 1 主要内容 该程序参考文献《考虑寿命损耗的微网电池储能容量优化配置》模型,以购售电成本、燃料成本和储能寿命损耗成本三者之和为目标函数,创新考虑储能寿命损耗约…

【Java跳槽面试必备】2024年最新八股文

Java基础面试题 Java的特点 Java 与 C 的区别 JDK/JRE/JVM三者的关系 Java程序是编译执行还是解释执行? 面向对象和面向过程的区别? 面向对象有哪些特性? 数组到底是不是对象? Java的基本数据类型有哪些? 为什么不能用…

【python由站点数据插值到网格数据方法对比】

文章目录 1、前言2、结果对比2.1 原始散点站位图2.2 griddata插值2.3 krige插值2.4 RBF插值2.5 IDW插值 3、总结 1、前言 气象海洋中空间数据类型有站点数据、格点数据。站点数据空间分布不连续,不利于进行时空分析;有时需要将站点数据插值到网格中。本…

GEC6818开机自动加载驱动与更改开发板的RTC时钟

GEC6818开机自动加载驱动与更改开发板的RTC时钟 本文主要涉及: 1.GEC6818开机自动加载驱动 2.更改开发板的RTC时钟 文章目录 GEC6818开机自动加载驱动与更改开发板的RTC时钟一、开机自动加载驱动或运行程序**STEP1:** 使用vi打开文件profile.命令如下**S…

“智慧食堂”设计与实现|Springboot+ Mysql+Vue+Java+ B/S结构(可运行源码+数据库+设计文档)

本项目包含可运行源码数据库LW,文末可获取本项目的所有资料。 推荐阅读100套最新项目持续更新中..... 2024年计算机毕业论文(设计)学生选题参考合集推荐收藏(包含Springboot、jsp、ssmvue等技术项目合集) 目录 1. 功…

智能电表怎么偷电?

大家好,今天我们要聊的是一个关于智能电表的小疑惑——智能电表是否能被“偷电”。可能你听过这样的说法,有人声称通过某些方法可以让电表不准确计费,甚至可以“偷电”。但事实真的是这样吗?让我们一起来科普一下。 首先,智能电表…

全球首位AI程序员诞生,技术革新还是职业威胁?

目录 导语: 一、2024年的第一丝凉意 二、AI在编程领域的应用现状 三、关于Devin的现状 四.未来展望 五.面对未来挑战,我们应该 结语: 导语: 时间回调到两周前的3月13号,世界上第一位AI程序员Devin诞生&#xff…

人工智能的决策树介绍

决策树模型 决策树基于“树”结构进行决策 每个“内部结点”对应于某个属性上的“测试”每个分支节点对应于该测试的一种可能结果(即属性的某个取值)每个“叶结点”对应于一个“预测结果” 学习过程:通过对训练样本的分析来确定“划分属性”…

记录echarts各种地图json文件下载地址

今日绘图需要用到echarts的地图json文件,但是github上已经找不到了,后发现伟大的网友提供了地址如下:Index of /examples/data/asset/geohttps://echarts.apache.org/examples/data/asset/geo/ 免费下载实时更新的geoJson数据、行政区划边界…

如何解决Modbus转Profinet网关通信不稳定或数据丢失问题

接到现场反映,在配置Modbus转Profinet网关时,出现Modbus转Profinet网关(XD-MDPN100)通信不稳定或数据丢失的问题,就这个问题特做出答疑。 解决Modbus转Profinet网关(XD-MDPN100)通信不稳定或数据…

【Linux进阶之路】理解UDP,成为TCP。

前言 学了TCP 和UDP之后,感觉UDP就像是初入职场的年轻人,两耳不闻 “窗外事”,只管尽力地把自己的事情做好,但收获的却是不可靠,而TCP更像是涉世极深的"职场老油条",给人的感觉就是 “城府极深&a…

Arduino中引脚的数字与真实引脚的对应关系

我们使用arduino开发时,最长遇到的是对端口管脚的拉高拉低,代码如下 void setup() {pinMode(13,OUTPUT); }void loop() {digitalWrite(13,HIGH); }上面还最简单io控制代码,其中引脚我们使用了数字13,但是这个13对应着哪个引脚呢&a…

老壁灯带你入门动态规划

1. 什么是动态规划 动态规划(dynamic programming)是运筹学的一个分支,是求解决策过程(decision process)最优化的数学方法。 从字面意义上来理解,就是走一步看一步,边解决问题,边对问题进行整体规划。 其实,动态规…

Mac上的Gatekeeper系统跟运行时保护

文章目录 问题:无法打开“xxx.xxx”,因为无法验证开发者。macOS无法验证此App是否包含恶意软件。如何解决? 参考资料门禁运行时保护 问题:无法打开“xxx.xxx”,因为无法验证开发者。macOS无法验证此App是否包含恶意软件…

Leetcode - 2580. 统计将重叠区间合并成组的方案数

文章目录 思路AC CODE总结 题目链接:2580. 统计将重叠区间合并成组的方案数 思路 一个区间合并的板子,计算出区间数目之后,每个区间都有放左和放右两种选法,所以最后的答案就是 2 k 2^k 2k。但是需要用c进行二维数组的排序&…

【正点原子FreeRTOS学习笔记】————(4)FreeRTOS中断管理

这里写目录标题 一、什么是中断?(了解)二、中断优先级分组设置(熟悉)三、中断相关寄存器(熟悉)四、FreeRTOS中断管理实验(掌握) 一、什么是中断?(…