机器学习与数据挖掘——第二章 数据与数据预处理

一、关于数据

什么是数据?

数据是数据对象的集合及其属性

数据对象集合及其属性

属性的类型

  • 标称标度 nominal scale
    标称属性的值是一些符号或实物的名称,每个值代表某种类别、编码或状态,所以标称属性又被看做是分类型的属性(categorical)。这些值不存在顺序关系,并且不是定量的。
    如:血型、身份号码、邮政编码
  • 类型标度 typological scale
  • 序列标度 ordinal scale
    在标称标度的基础上,加入了类别的顺序关系,当不能进行算术运算
    如:成绩(优、良、及格)、印度种姓制度
  • 间隔标度 interval scale
    含有对各个类进行分隔的间隔规模信息,数字不仅表示顺序,还能进行加减算术运算,但不能进行乘除运算。
    间隔标度可以看成一个一次函数。
    如:日期、摄氏温度
  • 比例标度 ratio scale
    含有对各个类别进行分隔的比例规模信息
    这种测量不仅保持了顺序、实体间的间隔规模,还能描述实体之间的比率,可以进行加减乘除等任何算术运算。
    可以看成是一个比例函数。
    如:开尔文温度、长度、时间
  • 离散属性和连续属性
    • 离散属性
      只有一个有限集和可数无限集,如邮政编码、计数。通常为整数变量。
    • 连续属性
      实数作为属性值,如温度、高度。通常用浮点变量表示。

二、为什么要预处理数据

现实中的数据是脏的:

  • 不完全:缺少属性值,或仅包含聚类数据
  • 噪音:包含错误和孤立点
  • 不一致:编码或名字存在差异
  • 数据类型
  • 非平衡数据

三、数据清理

填充缺失值、识别/去除离散点、光滑噪音、纠正数据中的不一致

如何处理缺失数据?

  1. 忽略元组
  2. 手工填写缺失数据
  3. 自动填充:全局常量(如“unknown”)、属性均值、推理的方式

如何处理噪音数据

  1. 分箱:排序数据,分布到等频、等宽的箱中
  2. 聚类:检测和去除孤立点
    局部离群因子LOF:LOF越接近于1,说明A的其领域点密度差不多,A可能和领域属于同一簇;如果这个比值约小于1,说明A的密度高于其领域点的密度,A为密集点;如果这个比值约大于1,说明A的密度小于其领域点,A越可能是异常点。
  3. 回归:回归函数拟合数据

四、数据集成

合并多个数据源中的数据

五、数据规约

获得数据的一个规约表示,规模比原来小、但接近原数据的完整性,使得得到几乎相同的分析结果。

  • 数据立方体聚集
  • 维度规约——去除不重要的属性
    主成分分析PCA:将一组N维向量降为K维,其目标是选择K给单位正交基,使原始数据变换到这组基后,各字段两两协方差为0,而字段的方程则尽可能大。
    步骤:
    1. 设有m条n维数据,按列组成n行m列矩阵X
    2. 将X的每一行进行零均值化,即减去这一行的均值
    3. 求出协方差矩阵C=X(X^T)/m
    4. 求出协方差矩阵的特征值及对应特征向量
    5. 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P
    6. Y=PX即为降维后的向量
  • 数据压缩
  • 数值规约
  • 离散化和产生概念分层

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/290601.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《 线性代数及其应用 (原书第4版)》——1.2 行化简与阶梯形矩阵

本节书摘来自华章出版社《 线性代数及其应用 (原书第4版)》一书中的第1章,第1.2节,作者:(美)戴维C. 雷(David C. Lay)马里兰大学帕克学院 著刘深泉 张万芹 陈玉珍 包乐娥 陆 博 译&a…

Android之jni解决JNIEnv跨线程问题

1、问题 JNIEnv是一个线程相关的变量 JNIEnv 对于每个 thread 而言是唯一的 JNIEnv *env指针不可以为多个线程共用 2、解决办法 java虚拟机的JavaVM指针是整个jvm公用的,我们可以用JavaVM来得到当前线程的JNIEnv指针,可以使用javaAttachThread保证取得当前线程的Jni环境…

SQL Server 提高创建索引速度的 2 个方法

方法 1、 使用tempdb来提速 create index index_name on table_name (column_list) with(sort_in_tempdb on); 方法 2、 使用多线程为来提速 create index index_name on table_name (column_list) with(maxdop 4); maxdop ( max dgree of parallelism)这下记到了吧 转载于:h…

iOS基础-高级视图-UITableView--静态单元格

静态单元格适用场合:分为好几组且图标和内容不规则。并且百年不变动。1.新建一个MJViewController,继承自TableViewController2.将storyboard的控制器View删除,拖一个TableViewController,将Class设置为MJViewController3.将Conte…

c#使用FluentFtp实现一行代码实现ftp上传下载等

一:简介FluentFTP 是一个完全托管的 .NET 和 .NET Standard 的 FTP 和 FTPS 库,针对速度进行了优化。它提供了广泛的 FTP 命令、文件上传/下载、SSL/TLS 连接、自动目录列表解析、文件哈希/校验和、文件权限/CHMOD、FTP 代理、FXP 传输、UTF-8 支持、异步/等待支持、…

软件体系结构知识点整理

包括软件体系结构风格、uml、软件质量属性、面向对象设计原则以及设计模式 pdf及goodnote版本

《T-SQL性能调优秘笈——基于SQL Server 2012 窗口函数》——1.2 使用窗口函数的解决方案简介...

本节书摘来自异步社区出版社《T-SQL性能调优秘笈——基于SQL Server 2012 窗口函数》一书中的第1章,第1.2节,作者: 【美】Itzik Ben-Gan,更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.2 使用窗口函数的解决方案简介 …

第一台定制商用NAS存储服务器

记得前不久在网络上看到有人在问有没有人将openfiler进行实际应用,以我看应该是有的,而且不少,你是否在用,或者曾经用过呢?LINUX加PC主机来定制各种应用型服务器,一直是我想去推广的,也就是如何…

[Java] java中的接口定义

在Java的通常规范中,对数据成员的修改要通过接口提供的方法进行(如下面示例中接口中的void learnMath(int hours)和void learnEnglish(int hours)),这个规范起到了保护数据的作用。用户不能直接修改数据,必须通过相应的…

ASP.NET Core(十)Configuration 配置优先级详解

ASP.NET Core 项目启动,默认执行顺序为:宿主 Host -> 读取配置 -> 日志设置 -> 注册服务(DI)-> 添加中间件 -> WebHost 监听 -> 后台 Work 启动。配置的加载和读取是在启动流程的最前面。微软关于 ASP.NET Core…

《BeagleBone开发指南》——1.7 小结

本节书摘来异步社区《BeagleBone开发指南》一书中的第1章,第1.7节,作者:【爱】Derek Molloy(莫洛伊),更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.7 小结 在完成本章后,你应该具备…

软件配置管理(一)配置管理概念与目标

软件配置管理的定义 软件配置管理(Software Configuration Management,SCM)是一组针对软件产品的追踪和控制活动,它贯穿于项目生命周期的始终,并代表软件产品接受各项评审。 软件配置管理的目的 软件配置管理是贯穿于整个软件过…

Android之运行Java.lang.UnsatisfiedLinkError的错误解决办法

1、问题 部分手机运行的时候在jni层出现这个错误,导致手机崩溃 Java.lang.UnsatisfiedLinkError 2、解决办法 是因为在我是这样写的 static {System.loadLibrary("");} 把报错的依赖加进去 static {System.loadLibrary("");System.loadLibrary("&q…

带中文索引的ListView 仿微信联系人列表

因为各种原因,项目经理和产品经理把我做的东西给否定了,所以决定分享出去。 主要功能: 1 、带中文索引的ListView 2、自己定义顶部搜索视图,能够对返回button,搜索button加入事件监听,带动画的咧&#xff0…

APP访问路径和销售归因分析

用户浏览路径是分析用户行为的关键,也是页面分析的关键。虽然可以很方便的获取到PV数据,但却无法知道用户是浏览哪些页面后来到当前页面,也不知道浏览过当前页面的用户又去了哪些其他页面。诸如此类的问题还有:某专题活动产生了多…

解决 ASP.NET Core 部署到 IIS,更新项目时文件夹正在使用错误

前言虽然 ASP.NET Core 应用程序是跨平台的,但我们还是经常将它部署到 Windows 的 IIS 下。当 ASP.NET Core 站点运行时,它会锁定正在使用的程序集,如果这时向站点目录下复制文件进行更新,会提示文件被占用的错误:这时…

linux之用xargs删除这个目录下面后缀为txt的文件(包括子目录)

1问题 删除这个目录下面后缀为txt的文件(包括子目录) 2、xargs命令解决 find . -name "*.txt" | xargs rm -rf3、xargs相关用途 比如在特定的文件里面找到相应的关键字 find . -name "*.txt" | xargs grep word或者 grep -r wor…

软件配置管理(二)配置管理角色与过程

文章目录一、配置管理角色及职责项目经理(PM)配置控制委员会(CCB)配置管理员(CMO)系统集成员(SIO)开发人员(DEV)二、配置管理基本流程计划阶段开发和维护阶段…

JAVA多线程和并发基础面试问答

原文链接 译文连接 作者:Pankaj 译者:郑旭东 校对:方腾飞 多线程和并发问题是Java技术面试中面试官比较喜欢问的问题之一。在这里,从面试的角度列出了大部分重要的问题,但是你仍然应该牢固的掌握Java多线程基础知识…

学习笔记(二)JavaScript基本概念(语法,数据类型,控制语句,函数)

一.语法 1.javascirpt中一切(变量,函数名和操作符)是严格区分大小写的。 2.javascript(标识符) 所谓标识符,就是指变量,函数,属性的名字,或者函数的参数。 命名规则&…