第三次毕业设计任务书

一. 进度计划

 

时间

计划进度

3.24-3.30

尝试将kdd数据预处理用代码实现

3.31-4.6

将kdd数据预处理用代码实现以及与aprior算法的结合

 

二. 课题需求

  2.1 数据预处理的功能和主要方法

   在现实中,由于数据的来源、组织、存储等的多样性,海量的原始数据中一般都很难避免“脏数据”的存在,如噪音、冗余、矛盾、缺损等等,因而很少能够直接满足数据挖掘的要求。根据“进去的是垃圾,出来的也是垃圾,”的原理,为了获得有价值的知识,就必须提供有效的数据。同时,由于知识发现问题本身固有的复杂性,不同类型、不同目的、不同方法的知识发现往往对数据源有额外的、特殊的要求。当建立一个信息系统的时候,即使进行了良好的设计、规划和数据清洗,也不能保证获得的数据都能满足特定的挖掘任务的需要,针对具体的应用往往还需要进行后续的数据预处理工作,如数据集成和转换、数据归约、连续数据的离散化、概念分层等。这些工作直接影响到数据挖掘算法的有效性和运行效率。

 

  数据预处理的主要方法有基于粗糙集理论的约简方法;基于概念树的数据浓缩方法;信息论思想和知识发现;基于统计分析的属性选取方法;遗传算法。而常见的数据预处理方法有:数据清洗、数据集成、数据变换和数据归约。

  1. 数据集成(Data Integration)是将多文件或多数据库运行环境中的异构数据进行合并处理,解决语义的模糊性。该部分主要涉及数据的选择、数据的冲突问题以及不一致数据的处理问题。

  2. 数据清洗(Data Cleaning):数据清洗的目的不只是要消除错误、冗余和数据噪音。其目的是要将按不同的、不兼容的规则所得的各种数据集一致起来。

  3. 数据变换(Data Transformation):是找到数据的特征表示,用维变换或转换来减少有效变量的数目或找到数据的不变式,包括规格化、规约、切换和投影等操作。

  4. 数据简化(Data Reduction):是在对发现任务和数据本身内容理解的基础上,寻找依赖于发现目标的表达数据的有用特征,以缩减数据模型,从而在尽可能保持数据原貌的前提下最大限度的精简数据量。其主要有两个途径:属性选择和数据抽样,分别针对数据库中的属性和记录。

 

  2.2数据预处理

  入侵检测的原始数据通常包含几十个特征,这些数据运用到一些分类算法中,将使分类速度非常缓慢,甚至无法进行下去,因此,寻找这些大量特征之间的相关性,找出其中的冗余信息,是入侵检测数据预处理要解决的问题。目前,特征提取主要采用的方法有 PCA、KPCA 和非线性成分分析方法等。

  PCA 是一种提取数据中线性特征的方法。作为一种特征提取技术,它已用在许多模式识别领域。

    设研究对象有n 个特征即 1 2, ,...,nx x x,PCA 就是寻找p个正交向量,使向量组

                                    (2.2.1)

    能较好地表示研究对象。

    (2.2.1)式写为矩阵的形式为

              Y =A ⋅X                                     (2.2.2)

    所以

                                            (2.2.3)

    对(2.2.3)式两边取数学期望得:

                                         (2.2.4)

    令

                                                  (2.2.5)

                                                      (2.2.6)

     则(2.2.4)式可变为

                                                      (2.2.7)

    由 X 的m 个样本估计得到:

                                                      (2.2.8)

     式中的 为第j个样本,同样

                                       (2.2.9)

      方差的贡献率定义为,选择 m 的依据是 m 个最大特征值对应的方差贡献率的总和应大于 99.9%。m 个最大特征值对应的特征矢量构成m 维特征子空间。

    主成分分析的具体算法是:

      1)计算协方差矩阵

      2)求出协方差矩阵的特征值

      3)按 m 个最大特征值对应的方差贡献率的总和大于 99.9%,选取 m 个最大的特征值及其对应的特征向量,利用(2.2.1)式求出输入数据在特征空间的投影。

 

  目前,入侵检测数据预处理主要是采用一些传统的降维方法,这些方法在入侵检测中存在一定的困难,如数据维数降低不多,对入侵检测中不同类型的数据同时处理存在困难等。

   

  CAEP ( 通 过 聚 集 显 露 模 式 分 类 ) 使 用 项 集 支 持 度 挖 掘 显 露 模 式(Emerging Pattern ,EP)[38]。而 EP  用于构造分类[41]。EP  基本概念如下:

设 I={i1, i2,…, im}是项的集合,其中的元素称为项(item)。事务 T 是项的集合,T⊆I。设数据集 D  是事务的集合。I  的子集 X  被称为 K  项集,当且仅当 K=|X|。如果 X⊆T,我们说事务集 T  包含项集 X。项集 X  在数据集 D  中的支持度用 supp D(X)表示,其计算公式如下:

   

 

  其中 count D(X)是 D  中包含 X  的数量。给定一个正数 δ,如果 supp D (X)≥δ,则认为 X  是 δ-large  否则认为 X  是 δ-small。LARGEδ (D)(相应的 SMALLδ(D))定义为所有 δ-large(相应的,δ-small)项集的集合。 假设一对数据集的有序对,D1  和 D2  其支持度分别为 supp1  (X)和 supp2  (X)。项集X  从 D1  到 D2  的增长率 Growth Rate(X)定义如下:

   

 

 

 

三. 参考资料

  1. 刘宪芳.入侵检测系统的特征提取方法研究及其实现
  2. 关大伟.数据挖掘中的数据预处理
  3. 姜晚云.关联规则在学生成绩管理中的应用研究

转载于:https://www.cnblogs.com/G-Domain/p/6613794.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/255009.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JMS-activMq与spring进行整合

对JMS做了一个简要介绍之后,接下来就讲一下Spring整合JMS的具体过程。JMS只是一个标准,真正在使用它的时候我们需要有它的具体实现,这里我们就使用Apache的activeMQ来作为它的实现。所使用的依赖利用Maven来进行管理,具体依赖如下…

CSS层叠样式表

HTML主要控制内容 CSS主要控制格式。 样式表是用来指定样式信息的句法机制。 之所以将CSS称为层叠样式表,是因为它可以在3个层次上进行定义。 内联样式表 内联样式表位于开始标签中,其设置只对该元素起作用 文档样式表 文档样式表位于文档的头部区域&…

对X264/FFMPEG架构探讨---感觉不错

3. FFMPEG架构分析FFMPEG是目前被应用最广泛的编解码软件库,支持多种流行的编解码器,它是C语言实现的,不仅被集成到各种PC软件,也经常被移植到多种嵌入式设备中。使用面向对象的办法来设想这样一个编解码库,首先让人想…

如何快糙好猛的使用Shiqi.Yu老师的公开人脸检测库(附源码)

前言 本次编写所用的库为于仕祺老师免费提供的人脸检测库。真心好用,识别率和识别速度完全不是Opencv自带的程序能够比拟的。将其配合Opencv的EigenFace算法,基本上可以形成一个小型的毕业设计。(我是学机械的啊喂!!&a…

Maven理解

2019独角兽企业重金招聘Python工程师标准>>> Maven概念 参考maven入门 冰河winner Maven作为一个构建工具,不仅能帮我们自动化构建,还能够抽象构建过程,提供构建任务实现;它跨平台,对外提供了一致的操作接口&#xff0…

C# FileSystemWatcher 在监控文件夹和文件时的用法

********************************************************************************** 第一个文章: ********************************************************************************** 概述 最近学习FileSystemWatcher的用法,它主要是监控一个文件夹,当文件夹内的文件要…

比微软kinect更强的视频跟踪算法--TLD跟踪算法介绍

TLD (Tracking-Learning-Detection)是英国萨里大学的一个捷克籍博士生在其攻读博士学位期间提出的一种新的单目标长时间( long term tracking )跟踪算法。该算法与传统跟踪算法的显著区别在于将传统的跟踪算法和传统的检测算法相结合来解决被跟踪目标在被…

一张图看懂混合云数据同步一站式解决方案

摘要: 针对不同数据库间数据实时同步难的问题,日前,阿里云宣布推出混合云数据同步一站式解决方案,便于广大云产品用户实现实时数据同步的混合云支持,更为方便的是,该功能让本地Oracle也能实现与云上数据库的…

分布式性能测试

Jmeter分布式测试 在使用Jmeter进行性能测试时,如果并发数比较大(比如最近项目需要支持1000并发),单台电脑的配置(CPU和内存)可能无法支持,这时可以使用Jmeter提供的分布式测试的功能。 一、Jmeter分布式执行原理: 1、Jmeter分布式…

socket,TCP/IP的理解(转)

TCP/IP 要想理解socket首先得熟悉一下TCP/IP协议族, TCP/IP(Transmission Control Protocol/Internet Protocol)即传输控制协议/网间协议,定义了主机如何连入因特网及数据如何再它们之间传输的标准, 从字面意思来看TCP…

最小中间和

题目描述 给定一个正整数序列a1,a2,...,an,不改变序列中的每个元素在序列中的位置,把它们相加,并用括号记每次加法所得的和,称为中间和。编程:找到一种方法,添上n-1对括号,加法运算依括号顺序进…

双目匹配与视差计算

立体匹配主要是通过找出每对图像间的对应关系,根据三角测量原理,得到视差图;在获得了视差信息后,根据投影模型很容易地可以得到原始图像的深度信息和三维信息。立体匹配技术被普遍认为是立体视觉中最困难也是最关键的问题&#xf…

概率论与数理统计-ch8-假设检验

1、假设检验 在总体的分布函数未知或只知其形式、不知其参数的情况下,为了推断总体的某些未知特性,提出关于总体的假设,然后根据样本数据对提出的假设做出接受或拒绝的决策。 步骤: 提出原假设--确定建立在样本基础上的检验统计量…

简单实现仿某宝地址选择三级联动样式

内容简单介绍实现步骤第一步 找准方向第二步 开干总结还是题外话内容简单介绍 简单看一下须要实现的效果,如图: 实现步骤 第一步 找准方向 事实上就是想好要用recyclerview而不是listview。假设要问我recyclerview是什么的话。。 第二步 开干 首先须要先…

opencv双目测距实现

虽然最近注意力已经不可遏制地被神经科学、大脑记忆机制和各种毕业活动吸引过去了,但是还是觉得有必要把这段时间双目视觉方面的进展总结一下。毕竟从上一篇博文发表之后,很多同仁发E-mail来与我讨论,很多原来的疑团,也在讨论和一…

Block的循环引用详解

1.首先我们创建了一个网络请求工具类 然后storyboard里面去创建了一个导航控制器 并且把它设置为初始控制器 然后拖入一个bar button --show--到自带的控制器 这个时候运行代码的结果是 x 显然这个时候没有造成循环引用 为什…

计算机视觉和图形学中的摄像机内参数矩阵详解

在计算机视觉和图形学中都有“摄像机内参数矩阵”这个概念,其含义大致相同,但在实际使用过程中,这两个矩阵却相差甚远。在增强现实中,为了使计算机绘制的虚拟物体和真实环境图像对其,需要令虚拟摄像机的内参数和真实摄…

数据库基础杂记

sql,Structured Query Language结构化查询语言。SQL 是一门 ANSI(美国国家标准局) 的标准计算机语言,用来访问和操作数据库系统。SQL 语句用于取回和更新数据库中的数据。SQL 可与数据库程序协同工作,比如 MS Access、DB2、Informix、MS SQL Server、Ora…

基于RBGD的mapping

最近学习RGBD的SLAM,收集了两个RGBD的mapping的开源工具包 1.RGBDSlam2 a.安装方法: #准备工作空间 source /opt/ros/indigo/setup.bash mkdir -p ~/rgbdslam_catkin_ws/src cd ~/rgbdslam_catkin_ws/src catkin_init_workspace cd ~/rgbdslam_catkin_ws…

【瓜分5000元奖金】Wannafly挑战赛13

链接:https://www.nowcoder.com/acm/contest/80/A来源:牛客网 zzy的小号 时间限制:C/C 1秒,其他语言2秒空间限制:C/C 262144K,其他语言524288K64bit IO Format: %lld题目描述 学家zzy根据字体的特点&#…