第2章 数据认知与预处理

《大数据挖掘及应用》学习笔记。

第2章 数据认知与预处理

在这里插入图片描述

2.1 数据分析的定义和流程
数据分析(data analysis)是指用适当的统计分析方法对收集来的大量数据进行分析和解释,提取出有用的信息形成结论,从而对数据加以详细研究和概括总结的过程。

2.1.1 如何理解和描述数据分析的问题
理解和抽象出一个待分析的数据分析问题模型步骤:

  1. 理解待分析的问题。
  2. 考察待分析问题的当前形势。
  3. 确定待分析问题的数据分析模型。
  4. 制定实施该问题的数据分析步骤。

2.1.2 数据获取与准备
获取数据的主要途径:

  1. 数据库
  2. 数据仓库
  3. 文件

2.1.3 数据质量评估

  1. 准确性
  2. 完整性
  3. 一致性
  4. 时效性

2.2 数据类型
我们获取的数据集都由一个一个数据对象组成,每一个对象都代表一个实例。

2.2.1 属性的定义
属性(attribute)是一个字段,表示数据对象的一个特征。对象与属性是不可分的,没有属性的对象是不存在的,因为对象不用属性来进行描述就不能称之为对象了,而属性如果不用来描述对象,也就没有意义。
属性的取值范围决定了属性的类型:
在这里插入图片描述
2.2.2 标称属性(nominal attribute)
指一些不同的符号或事物的名称,每个值提供了足够的信息以区分对象。
例如:描述水果类的数据对象,名称值可能是梨、苹果、桃子等,种类值可能是浆果类、核果类、柑橘类等,而颜色的值可能是红色、青色、黄色等。
如(苹果、核果类、红色)表明了其所描述的对象苹果的属性。
当然也可以用数字来表示标称属性,如定义1表示苹果,2表示梨等,一般情况下,不能求这些值的均值、中位数,但可以求出该属性下最常出现的值,这个值称为众数(mode),是一种中心趋势度量。

2.2.3 二元属性(binary attribute)
只有两个可选值的属性,只有0和1或值True和False两个状态。

2.2.4 序值属性(ordinal attribute)
提供足够的信息确定数据对象之间的序,但是值之间的差是未知的。序值属性可以定义众数、中位数或百分位数,但不能定义均值。

2.2.5 数值属性(numeric attribute)
最常用的一种数据类型,它是可度量的,用整数或实数值表示,它定量地描述对象。

2.3 数据的统计描述方法
在对数据进行分析之前,把握数据的全貌是至关重要的。基本的统计描述方法不仅可以用来识别整个数据集的性质和特点,发现数据集中的噪声或离群点,还能够对缺失的数据值进行补全。

基本统计描述:
在这里插入图片描述

…持续修改完善中

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/291817.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

9 C++ Boost 多线程,线程同步

线程的创建 boost_thread,boost_system 多线程的创建 线程的参数传递 线程的创建方式 线程的join 加入join,回收线程线程中断 线程中断2, 线程组 boost 线程的死锁 boost 线程递归锁 线程互斥锁,线程同步 unique_lock 锁,离开作用域自动释放 unique_lock 锁 示例 2,可以显式的释…

命令注入_命令注入绕过方式总结

前言命令注入是web中常见的漏洞之一,由于web应用程序未对用户提交的数据做严格的过滤,导致用户输入可以直接被linux或windows系统当成命令执行,一般都会造成严重的危害。常用符号分号(;)多条语句顺序执行时的分割符号。1cmd1;cmd2管道符(|)cm…

linux网络编程之用socket实现简单客户端和服务端的通信(基于UDP)

1、sendto和recvfrom函数介绍 sendto(经socket传送数据) 相关函数 send , sendmsg,recv , recvfrom , socket表头文件 #include < sys/types.h > #include < sys/socket.h >定义函数 int sendto ( int s , const void * msg, int len, unsigned int flags, const…

redis缓存设计要点随谈

在高并发系统中&#xff0c;缓存是必不可少的一部分。没有缓存对系统的加速和阻挡大量的请求直接落到系统的数据库&#xff0c;系统是很难撑住高并发的冲击。所以缓存设计是系统很关键的一环。1、缓存更新缓存的数据一般都是有有效期的&#xff0c;过了一段时间之后就会失效&am…

集合的结构示意图

转载于:https://blog.51cto.com/8467007/1364724

Java设计模式(8)组合模式(Composite模式)

Composite定义&#xff1a;将对象以树形结构组织起来&#xff0c;以达成“部分&#xff0d;整体” 的层次结构&#xff0c;使得客户端对单个对象和组合对象的使用具有一致性。Composite比较容易理解&#xff0c;想到Composite就应该想到树形结构图。组合体内这些对象都有共同接…

第1章 数据分析概述

《Python数据分析基础教程》学习笔记。 第1章 数据分析概述 1.1 数据的性质 1.1.1 数据的概念 所谓数据就是描述事物的符号&#xff0c;是对客观事物的性质、状态和相互关系等进行记载的物理符号或者是这些物理符号的组合。 在计算机系统中&#xff0c;各种文字、字母、数字符…

Android之通过adb shell getprop、netstat命令看dns、ip

1、查看dns 1)、输入adb shell 2 )、输入getprop ,查看配置 3)、getprop | grep dns 过滤dns 4) 、getprop | grep dns 输出dns 5) 、修改dns 需要root ,然后输入 adb shell 然后输

python testng_单元测试工具 TestNG 使用

写一篇小文&#xff0c;介绍一下 Java 下单元测试工具 TestNG 的使用&#xff0c;代码在 IDEA 环境在编写。单元测试&#xff0c;顾名思义&#xff0c;对系统中原子性的功能进行测试&#xff0c;一般情况下是单元测试是针对某个功能函数的测试。编写单元测试是系统开发中重要的…

AM335x kernel4.4.12 LCD 时钟翻转设置记录

TI AM335x kernel 4.4.12 LCD display 时钟翻转记录 因为公司硬件上已经确定LCD 转LVDS 转换芯片上确认以上升沿时钟为基准&#xff0c;所以只能在软件上调整相关东西。 入口在&#xff1a; drivers/gpu/drm/tilcdc/tilcdc_drv.c入口函数&#xff1a; module_init(tilcdc_drm_i…

Cache占用过多内存导致Linux系统内存不足问题排查

问题描述Linux服务器内存使用量超过阈值&#xff0c;触发报警。问题排查首先&#xff0c;通过free命令观察系统的内存使用情况&#xff0c;显示如下&#xff1a;total used free shared buffers cached Mem: 24675796 24587144 88652 …

第2章 Python与数据分析

《Python数据分析基础教程》学习笔记。 第2章 Python与数据分析 2.1 Python数据分析常用的类库 类库是用来实现各种功能的类的集合。 -1. NumPy NumPy(Numerical Python)是Python科学计算的基础包&#xff0c;提供以下功能&#xff1a; 快速高效的多维数组对象ndarrray是其…

LSPCI具体解释分析

一、PCI简单介绍 PCI是一种外设总线规范。我们先来看一下什么是总线&#xff1a;总线是一种传输信号的路径或信道。典型情况是&#xff0c;总线是连接于一个或多个导体的电气连线&#xff0c;总 线上连接的全部设备可在同一时间收到全部的传输内容。总线由电气接口和编程接…

linux之ip route命令

1.基础知识 1.1 路由 &#xff08;Routing&#xff09; 1.1.1 路由策略 &#xff08;使用 ip rule 命令操作路由策略数据库&#xff09; 基于策略的路由比传统路由在功能上更强大&#xff0c;使用更灵活&#xff0c;它使网络管理员不仅能够根据目的地址而且能够根据报文大小、应…

违反Apache 2.0许可证再分发被指控,火山引擎回应

文 | 白开水不加糖出品 | OSC开源社区&#xff08;ID&#xff1a;oschina2013&#xff09;针对有关违反 Apache 2.0 许可证&#xff0c;重新发行 SkyWalking 的指控&#xff0c;火山引擎方面作出回应称&#xff1a;火山引擎相关负责人表示&#xff0c;火山引擎接到社区反馈后&a…

vue 日期格式化返回指定个数月份_vue过滤器实现日期格式化的案例分析

说明今天将要介绍的是vue中的过滤器&#xff0c;并且将实现一个日期格式化的小案例。大家都知道&#xff0c;我们获取当前日期可以通过Date对象获取。下面我将获取当前时间并打印出来。console.log(new Date());我们获取的是一个标准时间&#xff0c;控制台的输出如下所示。在实…

linux网络编程之IP协议首部格式与其配套使用的四个协议(ARP,RARP,ICMP,IGMP)和TCP、UDP协议头结构总结

首先声明,这篇博客是几篇博客转载然后总结在一起的,只当是学习笔记,不在意是什么原创和转载了,学到东西就好。 1、IP协议首部格式(IP协议处余网络层) IP数据报首部图片格式: 最高位在左边,记为0 bit;最低位在右边,记为31 bit 头部代码结构如下 //定义IP首部typede…

无线安全***--启程

无线安全将来会成为一个值得重视的领域&#xff0c;现在无线的普及大大的方便我们的生活&#xff0c;同时在带来的便利的同时也会给我带来新的威胁&#xff01;下面我来通过cdlinux以及BT5来演示现在比较常见的无线***之战。攻破解我们都知道现在的个人无线局域网基本都会使用w…

Java读取word文件,字体,颜色

在Android读取Word文件时&#xff0c;在网上查看时可以用tm-extractors&#xff0c;但好像没有提到怎么读取Word文档中字体的颜色&#xff0c;字体&#xff0c;上下标等相关的属性。但由于需要&#xff0c;要把doc文档中的内容&#xff08;字体&#xff0c;下划线&#xff0c;颜…

.NET 20周年软件趋势随想

从2000年微软启动.NET战略时&#xff0c;我还是一位大学生&#xff0c;当年著名的黑客Miguel de Icaza , Miguel 为了寻找GNOME项目开发框架经过充分的调研启动了一个志存高远的项目&#xff1a;Mono&#xff0c;一个Microsoft .NET Framework的自由GNU/Linux实现&#xff0c;我…