NSL-KDD数据集详细介绍及下载

链接:https://pan.baidu.com/s/1hX4xpVPo70vwLIo0gdsM8A?pwd=q88b 
提取码:q88b

        一般认为数据质量决定了机器学习性能的上限,而机器学习模型和算法的优化最多 只能逼近这个上限。因此在数据采集阶段需要对采集任务进行规划。在数据采集之前, 主要是从数据可用性、采集成本、特征可计算性、存储成本的角度进行分析,以获得尽可能 多的样本特征为基本目标。

        入侵检测的数据采集方法取决于入侵检测系统的类型,即网络入侵检测和主机入侵 检测系统。对于网络入侵检测,采用网络嗅探、网络数据包截获等方法获得流量数据。对 于主机入侵检测,采用的方法比较灵活,既可以是操作系统的各种日志,也可以是某些应 用系统的日志,还可以通过开发驻留于主机的应用软件等方法获得主机数据。因此,与网 络连接、网络请求有关的特征,以及各类日志中的特征都是入侵检测常用的数据源。

        这里介绍入侵检测领域常用的数据集,包括 NSL-KDD等,这些公开的数据集为帮助 研究人员比较不同的入侵检测方法提供了基准。NSL-KDD 数据集是通过网络数据包提 取而成,由 M.Tavallaee等于2009年构建,它克服了更早之前 KDDCup99数据集中存 在的一些问题。

NSL-KDD共使用41个特征来描述每条流量,这些特征可以分为三组。

(1)基本特征(basic features),从 TCP/IP连接中提取。

(2)流量特征(traffic features),与同一主机或同一服务相关。

(3)内容特征(content features),反映了数据包中的内容。

除此之外,每条流量都带有一个标签,即normalanomaly,表示相应的流量为正常 或异常。因此 NSL-KDD是一个二分类的异常检测数据集

        从特征工程的角度看,NSL-KDD实际上已经完成了特征工程中的特征可用性、特征 采集,以及衍生特征的定义和计算。使用该数据集进行检测实验,只要从特征清洗、特征 选择或特征提取开始就可以。

NSL-KDD每条流量的41个特征的含义如表5-1所示,表中列出了特征名称及其类 型,其中 continuous是 连 续 数 值 型,symbolic是 符 号 类 型。例 如,protocol_type属 于 symbolic类型,它的取值范围是 {t' cp','udp',i'cmp'},是一种枚举值。

从https://www.unb.ca/cic/datasets/nsl.html下载数据文件,该数据压缩文件中 包含的文件说明如下。

KDDTrain+ .TXT: 是完整的 NSL-KDD训练集,除了41个特征外,还包括数据包 类型的标签和难度等级。其中,数据包类型有 normal,以及 back、buffer_overflow、guess_ passwd、portsweep、rootkit、satan、smurf、teardrop、warezclient、warezmaster等 入 侵 类 型。难度等级表示每条记录分类时判断的难易程度,是一个[0,21]范围内的整数,数值越 大表示该记录越容易分类,0是最不容易分类的。整个数据集共125973条记录,难度等 级小于15的记录占2.94%,可以看出绝大部分记录的分类标签都是比较确切的。 

KDDTrain + .ARFF:与 KDDTrain+ .TXT 大致相同,只是每条记录不包含难度 等级,同时数据包类型的标签被归类为normal和anomaly两种。该文件带有41个特征 的属性名和类型描述,可以直接在 Weka中使用。

KDDTrain+ _20Percent.TXT:是 KDDTrain + .txt文件的20%子集,实际上是 KDDTrain+ .txt前20%的记录。

KDDTrain+ _20Percent.ARFF:是 KDDTrain+ .arff文件的20%子集。

KDDTest+ .TXT:是完整的 NSL-KDD测试集,包括攻击类型的标签和CSV 格式 的难度等级。

KDDTest+ .ARFF:是完整的 NSL-KDD测试集,带有 ARFF格式的二进制标签。

KDDTest-21.TXT:是 KDDTest+ .txt文件的子集,其中不包括难度级别为21的 记录,即该数据集中共21个难度等级。

KDDTest-21.ARFF:是 KDDTest+ .arff文件的子集,其中不包括难度级别为21 的记录,该数据集共包含21个难度等级。

内容来自:标题 (tsinghua.edu.cn),可以再结合其他博客详细了解一下。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/817328.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

matplotlib_vs_ggplot2

参考博客 https://markusdumke.github.io/articles/2017/11/make-matplotlib-look-like-ggplot/#exactline theme_bw.mplstyle # ggplot style with white background # adapted from http://www.huyng.com/posts/sane-color-scheme-for-matplotlib/patch.linewidth: 1 patch…

算法-归并排序

算法-归并排序 时间复杂度(nlogn) 归并排序是用分治思想,分治模式在每一层递归上有三个步骤: 分解(Divide):将n个元素分成个含n/2个元素的子序列。解决(Conquer)&…

解决跨域之烦恼:Nginx如何成为你的跨域问题终结者

简介 跨域问题在Web开发中是一个常见而又让人头疼的挑战。当我们的Web应用尝试从一个域(domain)请求资源或数据来自另一个域时,由于浏览器的同源策略(Same-Origin Policy)的限制,就会遇到跨域问题。这种限…

mac基础操作、快捷、软件快捷方式

欢迎来到我的博客,代码的世界里,每一行都是一个故事 mac基础操作、快捷、软件快捷方式 前言mac快捷操作快捷查找切换页面页面缩略访达和命令端切换创建文件夹创建文件删除文件/文件夹获取文件的路径移动文件或文件夹复制文件命令端常用命令 前言 主要是方…

【爆款秘籍】上班族如何在小红书店铺实现10天净利润10万?

一、个人介绍与背景 自媒体起步 大家好,我是灵娜,一名热衷于知乎个人成长类内容创作的自媒体人。从最初的写作爱好者,到如今的自媒体从业者,我一直在探索如何通过内容创作实现自我价值。 面临的问题 然而,在自媒体…

Centos Docker Oracle11g 密码过期修改

症状: Centos Oracle11g环境变量配置 如果没有配置环境变量,需要先配置Oracle环境变量,否则执行sqlplus时会提示:SP2-0750: You may need to set ORACLE_HOME to your Oracle software directory 配置方法: 第一步&a…

企业级OVSSL证书的五大优势

在数字化时代,企业级OVSSL(Organization Validation Secure Sockets Layer)证书已成为保护网站安全、提升用户信任度的重要工具。越来越多企业在自身网络安全方面更倾向于OVSSL证书,以下就带你了解企业级OVSSL证书的五大优势&…

富格林:警惕暗箱实现稳健出金

富格林认为,现货黄金投资是一种双向交易的模式,投资者无论是做多还是做空都有机会获得盈利,这也导致一些投资者放松了警惕落入空头暗箱中,导致资金严重受损无法稳健出金。投资者不了解空头暗箱就很容易在投资中造成资金损失&#…

【译】微调与人工引导: 语言模型调整中的 SFT 和 RLHF

原文地址:Fine-Tuning vs. Human Guidance: SFT and RLHF in Language Model Tuning 本文主要对监督微调(SFT, Supervised Fine Tuning )和人类反馈强化学习(RLHF, Reinforcement Learning from Human Feedback)进行简…

QT文本操作

文本的操作 文本的读写流程 文本的读写流程 // 文本的读写流程// 1.打开文件》打到文本》QFileDialog::getOpenFileName返回的是// 一个字符串,包括了路径文件名字// open()方法打开文本// 2.读写文本// readAll(),readLine(),write()// 3.关闭文本 // close()使用…

3dmax制作小熊猫的基本流程

1.透视图插入面片,改高度宽度,把参考图放进面片里。 2.角度捕捉切换,角度改为90 3.shift旋转,旋转面片,复制一个出来 4.在前视图,把参考图片中的正式图小熊猫的一半的位置(可以是眼睛&#x…

【电路笔记】-异或非门

异或非门 文章目录 异或非门1、概述2、数字逻辑异或非门异或非门功能是一种数字逻辑门,是异或功能的逆或互补形式。 1、概述 基本上,“异或非门”是异或门和非门的组合,但具有与标准或非门类似的真值表,因为它的输出通常处于逻辑电平“1”并变为“ 当其任何输入处于逻辑电…

c++ - 类的默认成员函数

文章目录 前言一、构造函数二、析构函数三、拷贝构造函数四、重载赋值操作符五、取地址及const取地址操作符重载 前言 默认成员函数是编译器自动生成的,也可以自己重写,自己重写之后编译器就不再生成,下面是深入了解这些成员函数。 一、构造…

【面试八股总结】排序算法(一)

参考资料 :阿秀 一、冒泡排序 冒泡排序就是把小的元素往前交换或者把大的元素往后交换,比较相邻的两个元素,交换也发生在这两个元素之间。具体步骤: 比较相邻的元素。如果第一个比第二个大,就交换他们两个。对每一对…

HCIE考试第六题:规划设计

文章目录 业务个性化配置题目与做题步骤如下6规划设计6.1模板说明6.1.1规划设计图模板6.1.2.集成设计LLD模板6.2 华为云Stack规划设计画图【多Region组网】6.2.1.多Region说明和画图说明6.2.2.核心交换机画线6.2.3.TOR交换机画线6.2.4.防火墙画线6.2.5.业务区连线6.2.5.1.业务和…

MGRE-OSPF接口网络类型实验

OSPF接口网络类型实验 一,实验拓扑 初始拓扑: 最终拓扑: 二,实验要求及分析 要求: 1,R6为ISP只能配置IP地址,R1-R5的环回为私有网段 2,R1/R4/R5为全连的MGRE结构,R…

二叉树的顺序存储结构

定义一个长度为MaxSize的数组t&#xff0c;按照从上至下、从左至右的顺序依次存储完全二叉树中的各个结点。 TreeNode t[MaxSize]; #define MaxSize 100 struct TreeNode {ElemType value; //结点中的数据元素bool isEmpty; //结点是否为空 };for (int i0; i<…

Linux_CentOS学习笔记

文章目录 YUM源yum命令搭建并配置Yum软件仓库的大致步骤创建光盘Yum源实例Centos7实例Centos8实例 仅从光盘YUM源安装软件利用priorities插件安装多个yum源 第三方软件源清华大学软件源CentOS7 清华大学软件源 阿里云软件源CentOS7源信息CentOS7配置阿里软件源 中国科技大学 US…

Oracle 数据库 count的优化-避免全表扫描

Oracle 数据库 count的优化-避免全表扫描 select count(*) from t1; 这句话比较简单&#xff0c;但很有玄机&#xff01;对这句话运行的理解&#xff0c;反映了你对数据库的理解深度&#xff01; 建立实验的大表他t1 SQL> conn scott/tiger 已连接。 SQL> drop table …

利用机器学习进行图像分类:案例演示与代码实现

机器学习在图像处理领域有着广泛的应用&#xff0c;其中图像分类是一个重要的任务&#xff0c;它可以帮助我们将图像分成不同的类别。本文将介绍图像分类的基本概念&#xff0c;并通过一个实际的案例演示&#xff0c;展示如何使用Python和常用的机器学习库来实现图像分类。我们…