数据挖掘(1)概述

一、数据仓库和数据挖掘概述

1.1 数据仓库的产生

  1. 数据仓库与数据挖掘:
    • 数据仓库和联机分析处理技术(存储)。
    • 数据挖掘:在大量的数据中心挖掘感兴趣的知识、规则、规律、模式、约束(分析)。
  2. 数据仓库用于决策分析:
    1. 数据仓库:是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,并不是‘大型数据库’。
    2. 数据仓库与数据库的区别:
数据库数据仓库
事务处理决策分析
保持事务处理的当前状态保存过去和当前的数据
大量数据库的集成

1.2 数据挖掘的基本概念

  1. 数据挖掘定义:

    1. 数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。
    2. 几层含义:
      • 数据:真实、大量、含噪声。
      • 发现的是用户感兴趣的知识。
      • 发现的知识:可接受、可理解、可运用。
      • 不要求发现全部的知识,仅对特定的问题。
  2. 数据挖掘的一个过程
  3. 数据挖掘的功能

    1. 关联分析(描述)
      • 反映一个事件和其他事件之间依赖或关联的知识。
      • 广泛用于:购物篮、事务数据分析。
    2. 聚类分析(描述)
      • 最大化类内的相似性和最小化类间的相似性(无监督的学习方法)
      • 找出数据集中的共性与差异,将具有共性的对象聚合在相应的类中。
      • 无指导的观察室学习,没有预先定义的类
    3. 分类挖掘(预测)
      • 分类:同类事物共同性质的特征型知识,不同事物之间的差异型特征知识。(有监督的学习方法)
        • 类别:特征联系,决策树
      • 有指导的事例式学习,有预先定义的类
      • 过程:分析训练集中数据,为每个类别建立分类分析模型;用这个分类分析模型对DB中的其他记录进行分类。
      • 聚类与分类的区别:
    4. 孤立点分析
      • 对差异和极端特例的描述
      • 孤立点:事物偏离常规的异常现象。
      • 没有孤立点分析算法。
      • 异常检测:通过构建正常行为模型(特征描述),来检测与特征描述严重偏离的新的模式。

二、数据仓库的基本概念

2.1概念

数据仓库(Data Warehouse)是在数据库已经大量存在的情况下,为了进一步挖掘数据资源,为了决策需要而产生的,它并不是所谓的“大型数据库

2.2数据仓库的两个主要作用

  • 存储经过加工处理的决策需要的数据

  • 查询决策分析的依据

2.3数据仓库的关键特征

  1. 面向主题(从面向应用到面向主题
  2. 集成的(需要使用数据清洗、数据继承来处理数据)
  3. 随时间而变化的(只进行两种数据访问:数据的初始装载、查询操作)
  4. 不容易丢失的(包含时间元素)

2.4为什么要建立数据仓库

  1. 事务型处理(DB):
    1. 日常事务处理
    2. 处理细 节 信 息
  2. 分析型处理(DW):
    1. 用于管理员的决 策 分
    2. 处理宏 观 信 息 
  3. 区别

2.5数据仓库与数据挖掘的关系

  1. 区别:
    • 数据仓库:存储技术,提供对不同决策的数据和信息。
    • 数据挖掘:分析技术,从数据中挖掘信息。
  2. 联系:
    • 成功的数据挖掘:通过访问正确的、完整的、集成的数据,进行深层次的分析。
    • 数据仓库并不是数据挖掘的必要条件:
      • DM不一定建立在DW之上,DW不是实施DM的必要条件。
      • 在开发DW过程中所进行的数据集成、清洗、准备,才使得DW对DM有重要的价值。

2.6数据立方体

1. 概念分层(单个维)
  1. 定义:定义一个映射序列,将低层概念映射到更一般的高层概念中。
  2. 比如:在城市->省份->国家->州,维度中,我们可以从中选取一个维度进行考查。
2.方体的格(维的集合)
  1. 定义:给定一个维的集合,将在不同汇总级别上给出的数据立方体。
  2. 0维方体:存放最高层的汇总,顶 点 方 体 
  3. 最底层汇总:基 本 方 体 

 2.7 数据仓库的三级模型

1.概念模型:
  1. 首先将现实世界抽象为概念模型、然后再用计算机世界的模型和语言描述。
  2. 数据仓库的第一层、最高层
  3. 据仓库用信 息 包 图表示概念模型。
  4. 信息包图

eg:确定维度、级别(类别、概念分层、将维度细分)、度量(指标与事实)。 

2.逻辑模型:
  1. 数据仓库第二层
  2. 三种表示:星型、雪花模型、事实星座模型。
  3. 几个基本概念:
    1. 维:视角、观点;eg:时间维度、产地维度。
    2. 维表:每一维都有一个表与之对应。
    3. 事实:数字度量。
    4. 事实表:事实的名称或度量、以及每个相关维表的关键字。
  4. 星型模型
    1. 事实表在中心,周围围绕地连接维表。

    2.  通常由三种逻辑模型表示法:星型模型,雪花模型,事实星座模型
  5. 雪花模型
    1. 相当于增加了外键,维护表与表的关系,减少了冗余。

  6. 事实星座模型
    1. 对主题的数据仓库,需要多个事实表共享维表。
3.物理模型:
  1. 定义:是逻辑模型在数据仓库中的实现。
  2. 主要进行:数据存储结构、存储策略、索引策略、存储分配优化。
  3. 两种常见的存储结构:
    1. 分布式存储
      1. 物理上分布、逻辑上统一。
    2. 集中式存储
      • 通过FC(光纤通信)交换机来直接访问所有数据,而不需要其它节点。

2.8DW的设计

  1. 数据仓库设计与数据库设计的区别(** )
  2. DW设计的原则
    1. 以数据驱动为中心,数据驱动和需求驱动相结合
    2. 数据驱动:根据当前数据基础和质量进行数据源分析
    3. 需求驱动:根据业务方向需求进行调整。

三、联机分析处理

建立数据仓库的目的,是要为决策提供必要的支持。

3.1 OLAP概述

1. OLAP的基本概念
  1. 定义:联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。
  2. 核心技术是,OLAP是多维数据分析工具的集合。
  3. OLAP与数据仓库的多维数据组织管理正好形成相互结合相互补充的关系。
2. 几个关系?
  1. OLAP与DW
    1. 数据仓库:侧重于存储和管理面向主题的数据。
    2. OLAP:侧重于数据仓库中的数据分析,并将其转换成辅助决策的信息。
      • 多维数据分析,这与数据仓库的多维数据组织管理相互结合、相互补充。
      • 使得DW能快速分析查询,从而能有效的联机分析。
  2. OLAP(联机处理分析)与OLTP()
    1. OLTP:关系型数据库的主要应用,增删改查。事务型
    2. OLAP:数据仓库的主要应用,分析与决策,并提供查询结果。分析型
      • OLAP的数据来自于OLTP数据库

3. OLAP的特性
  1. 快速性:在5s内对用户大大部分分析要求作出反应。
  2. 可分析性:能处理任何逻辑分析和系统分析。
  3. 多维性:关键属性,提供数据的多维视图和分析
  4. 信息性:应能及时获取信息,管理大容量信息。

3.2 OLAP的分析方法

  • 切片

    选定一个二维子集,切出一个平面

  • 切块

    选定一个三位子集,切出立方体

  • 旋转

    改变一个报告显示的维方向

  • 钻取

    根据维层次改变数据的粒度

1.相关概念

2. 切片
  1. 广义:某一维上一个维成员。降1维
  2. 狭义:选取一个二维子集。降n-2维
3. 切块
  1. 广义:在某一维上选定某一区间的维成员,没有降维
    • 比如考察2021年1月到2021年6月的信息。
  2. 狭义:选取一个三维子集。降n-3维
4. 钻取(某个维的层次性)

 5. 旋转

3.3 OLAP的数据组织 

ROLAP

rolap是基于关系型数据库的OLAP

  • 利用关系数据库存储、管理、聚合数据。
  • 良好扩展性,可以简单增加新维
  • 星型模型
  • 响应时间长。

MOLAP

MOLAP是基于多维数据库存储方式建立的OLAP,采用类似多维数组的结构

  • 多维数据库
  • 预综合的数据快速索引。
  • 响应速度快。
  • 增加新的维度,需要重新建立数据库。

HOLAP

HOLAP是混合型的

  • 常用维:多维数据库存储。
  • 不常用的维:用ROLAP存储。

ROLAP和MOLAP的对比

  1. 数据存储速度:ROLAP需要将SQL语句转化为多维存储语句,临时拼合为多维数据立方体,因此ROLAP的响应时间较长
  2. 维度变化的适应性:MOLAP增加新的维度,则多维数据库通常需要重新建立,ROLAP对于维表的变更有很好的适应性

四、数据挖掘的基本概念

4.1 什么是数据挖掘

  1. 定义:从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/92594.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习算法基础--K-means应用实战--图像分割

目录 1.项目内容介绍 2.项目关键代码 3.项目效果展示 1.项目内容介绍 本项目是将一张图片进行k-means分类,根据色彩k进行分类,最后比较和原图的效果。 题目还是比较简单的,我们只要通过k-means聚类,一类就是一种色彩得出聚类之…

快速上手kettle(三)壶中可以放些啥?

序言 快速上手kettle开篇中,我们将kettle比作壶,并对这个壶做了简单介绍。 而上一期中我们实现了①将csv文件通过kettle转换成excel文件; ②将excel文件通过kettle写入到MySQL数据库表中 这两个案例。 相信大家跟我一样,对kettle已经有了初步认识,并且对这强大的工具产…

CV面试知识点总结

一.卷积操作和图像处理中的中值滤波操作有什么区别? 1.1卷积操作 卷积操作是一种线性操作,通常用于特征的提取,通过卷积核的加权求和来得到新的像素值。1.2中值滤波 原文: https://blog.csdn.net/weixin_51571728/article/detai…

leetCode 376.摆动序列 动态规划 + 图解 + 状态转移

376. 摆动序列 - 力扣(LeetCode) 如果连续数字之间的差严格地在正数和负数之间交替,则数字序列称为 摆动序列 。第一个差(如果存在的话)可能是正数或负数。仅有一个元素或者含两个不等元素的序列也视作摆动序列。 例如…

[尚硅谷React笔记]——第2章 React面向组件编程

目录: 基本理解和使用: 使用React开发者工具调试函数式组件复习类的基本知识类式组件组件三大核心属性1: state 复习类中方法this指向: 复习bind函数:解决changeWeather中this指向问题:一般写法:state.htm…

【最新版配置conda环境】新版pycharm导入新版anaconda环境

最近下载了新版pycharm和新版anaconda,并且在命令行创建了环境,想着在pycharm里面导入环境。结果现在的导入方式发生了变化。 之前是通过导入Python.exe进行的。 现在: 当我们点击进去之后,会发现找不到python.exe了。 具体什么…

JVM学习笔记

JVM学习笔记 复习之前学的内容,同时补充以下知识点:JVM的双亲委派机制、伊甸区与老年代相关知识; 双亲委派机制 双亲的含义应该就是AppClassLoader有:ExtClassLoader和BootstrapClassLoader“两个”父加载器。 首先介绍Java中…

Stm32_标准库_4_TIM中断_PWM波形_呼吸灯

基本原理 PWM相关物理量的求法 呼吸灯代码 #include "stm32f10x.h" // Device header #include "Delay.h"TIM_TimeBaseInitTypeDef TIM_TimeBaseInitStructure; TIM_OCInitTypeDef TIM_OCInitStructuer;//结构体 GPIO_InitTypeDef GPIO_InitStructur…

【Git】Git 原理和使用

Git 一、Git 本地仓库1. 本地仓库的创建2. 配置 Git3. 工作区、暂存区、版本库4. 添加文件5. 查看 .git 文件6. 修改文件7. 版本回退8. 撤销修改9. 删除文件 二、分支管理1. 理解分支2. 创建分支3. 切换分支4. 合并分支5. 删除分支6. 合并冲突7. 分支管理策略8. bug 分支9. 强制…

TempleteMethod

TempleteMethod 动机 在软件构建过程中,对于某一项任务,它常常有稳定的整体操作结构,但各个子步骤却有很多改变的需求,或者由于固有的原因 (比如框架与应用之间的关系)而无法和任务的整体结构同时实现。如…

Armv8/Armv9 Cache知识大纲分享--思维导图

关键词:cache学习、mmu学习、cache资料、mmu资料、arm资料、armv8资料、armv9资料、 trustzone视频、tee视频、ATF视频、secureboot视频、安全启动视频、selinux视频,cache视频、mmu视频,armv8视频、armv9视频、FF-A视频、密码学视频、RME/CC…

Acwing 838. 堆排序

Acwing 838. 堆排序 题目描述思路讲解代码展示 题目描述 思路讲解 堆是一颗完全二叉树,除了最下面一层,其余是满的,最后一层从左到右排列 小根堆:每个点小于等于左右两堆,所以根节点就是最小值 大根堆:每个…

Docker Tutorial

什么是Docker 为每个应用提供完全隔离的运行环境 Dockerfile, Image,Container Image: 相当于虚拟机的快照(snapshot)里面包含了我们需要部署的应用程序以及替它所关联的所有库。通过image,我们可以创建很…

美容店预约小程序搭建流程

随着科技的不断发展,小程序已经成为了人们生活中不可或缺的一部分。对于美容店来说,搭建一个预约小程序不仅可以提高工作效率,还可以增加客户数量、提高服务质量。那么,如何搭建一个美容店预约小程序呢?本文将为你详细…

git使用,一点点

查看自己有没有安装git git --version 如果没有安装请执行sudo yum install -y git来安装 git 指令 git log 查看日志 git pull 同步远端和本地仓库 这就是冲突的报错: 所以这个时候你要同步一下git pull

【项目实战】单数据源多数据库实现多租户

文章目录 前言多租户的四种实现方案单数据源多数据库实现思路代码实现 总结 前言 多租户(Multi-Tenancy)是一种软件架构设计模式,旨在使单个应用程序可以同时为多个租户(如不同组织、用户或客户)提供服务,…

CSS 相关

CSS 相关 CSS布局如何管理CSS 代码目录?分多个目录的话,会有命名冲突,那如何解决命名冲突? box-sizing:border-boximage的宽度的问题: CSS布局 单列布局:将一个元素作为布局容器。通常设置一个较小的宽度(最…

MATLAB中d2d函数用法

目录 语法 说明 示例 重新采样离散时间模型 重新采样已识别的离散时间模型 d2d函数的功能是重新采样离散时间模型。 语法 sys1 d2d(sys, Ts) sys1 d2d(sys, Ts, method) sys1 d2d(sys, Ts, opts) 说明 sys1 d2d(sys, Ts)将离散时间动态系统模型 sys 重新采样&#…

JAVA 异常分类及处理

1 概念 如果某个方法不能按照正常的途径完成任务,就可以通过另一种路径退出方法。在这种情况下会抛出一个封装了错误信息的对象。此时,这个方法会立刻退出同时不返回任何值。另外,调用 这个方法的其他代码也无法继续执行,异常处理…

OCI 发布了容器运行时和镜像规范!

7 月 19 日是开放容器计划Open Container Initiative(OCI)的一个重要里程碑,OCI 发布了容器运行时和镜像规范的 1.0 版本,而 Docker 在这过去两年中一直充当着推动和引领的核心角色。 我们的目标是为社区、客户以及更广泛的容器行…