数据处理之数据规约

数据处理之数据规约

1. 数据规约概述

数据规约是数据处理中的重要方法,旨在让数据处理更简便、高效,以满足业务需求。当从数据仓库获取的数据量庞大时,直接在海量数据上进行分析和挖掘成本颇高。数据规约可得到数据集的归约表示,在减小数据规模的同时,尽可能保持原数据的完整性,使得在归约后的数据集上进行挖掘能获得与使用原数据集近乎相同的分析结果。

2. 经典数据规约策略
  • 属性规约:想办法减少分析时需考虑的变量或属性。常用方法如小波变换,它能将复杂数据简化到更小、更简单的空间;主成分分析利用降维思想,把多个指标压缩成几个重要且互不重复、能抓住大部分原始信息的指标;还有挑选属性子集,即去除不重要、重复、不相关或冗余的属性维度,找到最小属性集合,让数据分布与使用所有属性时的分布尽量相似。例如分析顾客是否愿意购买新的流行歌单时,可删掉电话号码、住址等无关信息,保留顾客分类、年龄、喜好的音乐类型等重要信息。
  • 数量规约:通过较小的数据集替代原始数据集来简化处理过程。其常用方法分为参数的和非参数的。
    • 参数方法:利用如回归模型、对数线性模型等数学模型拟合数据,只需存储模型的参数而非整个数据集,借助模型的概括能力实现数据压缩和表示。
    • 非参数方法:不依赖特定数学模型,例如使用直方图近似数据分布,通过聚类将数据分组并用簇的代表性数据点替代原始数据,或者运用抽样技术从原始数据集中选取部分数据作为代表,以及数据立方体聚集,它通过对数据进行多维度的汇总和聚合来减少数据量并保留关键信息。
    • 直方图:这是一种利用分箱法近似数据分布的数据规约方法,把数据分成不同区间(格子),格子宽度代表范围大小,高度显示该范围内的数据点数量,常用于统计数据的可视化,便于理解数据分布情况,还可根据等宽原则或等平原则来确定区间划分。
    • 聚类:将数据集的数据对象分组,使相似对象归为同一组,不相似对象分到不同组,分组结果称为簇或群。相似性通常基于距离度量(如欧几里得距离、曼哈顿距离等)来判定,距离越小相似度越高,距离越大差异性越大。聚类技术在市场细分、图像处理、社交网络等诸多领域都有重要作用,簇的直径和簇心距离是评估聚类质量的关键指标,常用的聚类算法包括基于划分(如 k means 算法)、基于层次、基于密度、基于网格和基于模型的方法等。
    • 抽样:通过从大型数据集提取小的随机样本子集来代表整个数据集,能显著降低处理和分析的计算成本,同时保留数据代表性。常见抽样方法有无放回简单随机抽样(确保样本独立性和随机性,每个数据点只能被选一次)、有放回简单随机抽样(所选数据点抽样后会放回,可多次选择,适用于需重复抽样情况)、簇抽样(适合数据集自然分组情况,将数据集划分成簇后随机选簇抽样)以及分层抽样(适用于数据集有明显分层特征情况,将数据集划分为不同层后从各层随机抽取样本)。

二、数据处理之数据变换

1. 数据变换的意义

数据变换是数据挖掘过程中的关键环节,核心任务是把各种原始数据转化为适合分析和挖掘的格式,以提高挖掘的准确性,帮助提取更有价值的信息。

2. 常见的数据变换策略
  • 光滑数据:犹如去除画布上的杂点般去掉数据中的噪声,常用技术包括分箱、回归和聚类等,使数据更纯净。
  • 数据聚类:对数据进行汇总或聚集,比如将日销售数据聚合计算出月或年销售总量,有助于发现数据模式,还能构建数据立方体以从多维度观察数据。
  • 属性构造(特征构造):依据已有的属性构造出新属性并添加到属性集中,能加速挖掘过程,更快找到有价值信息。
  • 数据规范化:类似调整乐器音调,按比例缩放数据的属性,使其落入特定区间,避免某些属性对结果产生过大影响,常见算法有最小最大规范化(将数据最小值拉伸到 0,最大值压缩到 1,使中间数值线性映射到该区间)、零均值规范化(将数据均值变成 0,并根据标准差缩放,确保数据分布均匀,消除偏移,不受极端值干扰)、小数定规范化(将所有数据值转换为相对于总和的比例,直观体现各部分对整体的贡献)。
  • 数据离散化:把原始值替换为区间标签或概念标签,让数据更简洁明了,便于理解和分析。
  • 数据泛化:进行概念分层,用高层概念替换低层或原始数据,像把街道泛化为城市、国家等,许多属性的概念分层可在数据库模式中自动定义。

查看更多

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/890828.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vulnhub靶场-matrix-breakout-2-morpheus攻略(截止至获取shell)

扫描出ip为192.168.121.161 访问该ip,发现只是一个静态页面什么也没有 使用dir dirsearch 御剑都只能扫描到/robots.txt /server-status 两个页面,前者提示我们什么也没有,后面两个没有权限访问 扫描端口,存在81端口 访问&#x…

Java - 日志体系_Apache Commons Logging(JCL)日志接口库

文章目录 官网1. 什么是JCL?2. JCL的主要特点3. JCL的核心组件4. JCL的实现机制5. SimpleLog 简介6. CodeExample 1 : 默认日志实现 (JCL 1.3.2版本)Example 2 : JCL (1.2版本) Log4J 【安全风险高,请勿使用】 7. 使用…

C++-----------映射

探索 C 中的映射与查找表 在 C 编程中,映射(Map)和查找表(Lookup Table)是非常重要的数据结构,它们能够高效地存储和检索数据,帮助我们解决各种实际问题。今天,我们就来深入探讨一下…

免费 IP 归属地接口

免费GEOIP,查询IP信息,支持IPV4 IPV6 ,包含国家地理位置,维度,asm,邮编 等,例如 例如查询1.1.1.1 http://geoip.91hu.top/?ip1.1.1.1 返回json 对象

Linux应用软件编程-多任务处理(进程)

多任务:让系统具备同时处理多个事件的能力。让系统具备并发性能。方法:进程和线程。这里先讲进程。 进程(process):正在执行的程序,执行过程中需要消耗内存和CPU。 进程的创建:操作系统在进程创…

认识计算机网络

单单看这一个词语,有熟悉又陌生,让我们来重新认识一下这位大角色——计算机网络。 一、是什么 以及 怎么来的 计算机网络是指将地理位置不同的具有独立功能的多台计算机及其外部设备,通过通信线路和通信设备连接起来,在网络操作…

3. Kafka入门—安装与基本命令

Kafka基础操作 一. 章节简介二. kafka简介三. Kafka安装1. 准备工作2. Zookeeper安装2.1 配置文件2.2 启动相关命令3. Kafka安装3.1 配置文件3.2 启动相关命令-------------------------------------------------------------------------------------------------------------…

【Redis】 数据淘汰策略

面试官询问缓存过多而内存有限时内存被占满的处理办法,引出 Redis 数据淘汰策略。 数据淘汰策略与数据过期策略不同, 过期策略针对设置过期时间的 key 删除, 淘汰策略是在内存不够时按规则删除内存数据。 八种数据淘汰策略介绍 no evision&…

meshy的文本到3d的使用

Meshy官方网站: 中文官网: Meshy官网中文站 ​编辑 Opens in a new window ​编辑www.meshycn.com Meshy AI 中文官网首页 英文官网: Meshy目前似乎还没有单独的英文官网,但您可以在中文官网上找到英文界面或相关英文资料。 链…

计算机网络压缩版

计算机网络到现在零零散散也算过了三遍,一些协议大概了解,但总是模模糊糊的印象,现在把自己的整体认识总结一下,(本来想去起名叫《看这一篇就够了》,但是发现网上好的文章太多了,还是看这篇吧&a…

C++-----线性结构

C线性结构模板 概念:线性结构是一种数据元素之间存在一对一线性关系的数据结构,如数组、链表、栈、队列等。C中的模板可以让我们编写通用的代码,适用于不同的数据类型,而不必为每种数据类型都重复编写相同的代码结构。作用&#…

探究音频丢字位置和丢字时间对pesq分数的影响

丢字的本质 丢字的本质是在一段音频中一小段数据变为0 丢字对主观感受的影响 1. 丢字位置 丢字的位置对感知效果有很大影响。如果丢字发生在音频信号的静音部分或低能量部分,感知可能不明显;而如果丢字发生在高能量部分或关键音素上,感知…

支持向量机入门指南:从原理到实践

目录 1 支持向量机的基本概念 1.2 数学表达 2 间隔与支持向量 2.1 几何间隔 2.2 支持向量的概念 2.3 规范化超平面 2.4 支持向量的深入分析 2.4.1 支持向量的特征 2.4.2 支持向量的作用 2.4.3 支持向量的代数表示 2.5 KKT条件 3 最优化问题 3.1 问题的形成 3.2 规…

使用Webpack构建微前端应用

英文社区对 Webpack Module Federation 的响应非常热烈,甚至被誉为“A game-changer in JavaScript architecture”,相对而言国内对此热度并不高,这一方面是因为 MF 强依赖于 Webpack5,升级成本有点高;另一方面是国内已…

SQLite本地数据库的简介和适用场景——集成SpringBoot的图文说明

前言:现在项目普遍使用的数据库都是MySQL,而有些项目实际上使用SQLite既足矣。在一些特定的项目中,要比MySQL更适用。 这一篇文章简单的介绍一下SQLite,对比MySQL的优缺点、以及适用的项目类型和集成SpringBoot。 1. SQLite 简介 …

游戏引擎学习第62天

回顾 我们目前正在开发一把虚拟剑,目的是让角色可以用这把剑进行攻击。最初的工作中,我们使用了一个摇滚位图作为虚拟剑的模型,并且实现了一个基本的功能:角色可以丢下剑。但这个功能并没有达到预期的效果,因为我们想…

spring专题笔记(六):bean的自动装配(自动化注入)-根据名字进行自动装配、根据类型进行自动装配。代码演示,通俗易懂。

目录 一、根据名字进行自动装配--byName 二、根据类型进行自动装配 byType 本文章主要是介绍spring的自动装配机制, 用代码演示spring如何根据名字进行自动装配、如何根据类型进行自动装配。代码演示,通俗易懂。 一、根据名字进行自动装配--byName Us…

petalinux 中 cmake 需要用到的环境变量

自定义修改部分环境变量, 实测可用

深入解析MySQL索引结构:从数组到B+树的演变与优化

前言: 在数据库查询中,索引是一种关键的性能优化工具。然而,索引的失效可能导致查询效率大幅下降。为了更好地理解索引的工作原理及规避其失效,深入了解索引结构的演变过程尤为重要。 MySQL 的索引数据结构从简单到复杂&#xff0…

43. Three.js案例-绘制100个立方体

43. Three.js案例-绘制100个立方体 实现效果 知识点 WebGLRenderer(WebGL渲染器) WebGLRenderer是Three.js中最常用的渲染器之一,用于将3D场景渲染到网页上。 构造器 WebGLRenderer(parameters : Object) 参数类型描述parametersObject…