数据仓库与数据挖掘小结

更加详细的只找得到pdf版本 

填空10分
判断并改错10分
计算8分
综合20分

客观题

填空10分
判断并改错10分--错的要改

mooc中的--尤其考试题

 

名词解释12分

4个,每个3分

经常碰到的专业术语

简答题40分

5个,每道8分

综合

roc曲线

类似于和计算相关的题目

C1

什么是数据挖掘?概念是什么?

哪些操作属于数据挖掘操作,哪些操作不属于
数据:海量、多源异构

操作:从大量的数据中提取出有趣的(重要、隐含、以前未知、潜在有用)模式或知识。

数据分析与数据挖掘有区别
数据挖掘AKA知识发现KDD

数据挖掘的流程

在数据管理的视角下,数据挖掘的流程是什么?有哪些环节?一定要注意是一个迭代反馈的过程
 

数据集成

不同数据源中描述同一条数据对象《变成一个比较统一的数据信息

数据清理

错误、异常、冗余、缺失

进入数据仓库

按主题存储数据

选择、变换

把数据仓库中的数据变成与数据挖掘任务相关的数据集
选择:选择相关数据、属性特征
变换:格式可能不满足算法要求、数据量纲;特征转换--相乘相除etc…

得到和任务相关的数据集,可供我们使用算法

数据挖掘

设计或选择合适的模型,用于任务相关的数据上,得到模式

知识评估

若不满足,考虑到之前所有步骤--哪个或哪几个步骤不合适


反复试验的过程

数据挖掘的任务

分类回归

利用历史记录预测未来的值--预测问题

聚类

相关性分析与关联分析-关联规则挖掘

异常检测

预测性任务

描述性任务

关联规则挖掘-物品之间共线关系

C2

数据集的主要特征

维度、分辨率、稀疏性

识别数据属性值中的异常的方法

画图【箱线图】、统计的3σ原则

标称【标称属性中的二分属性->对称二分与不对称二分】、序数、数值,如何计算这些数据类型的相似度?如果数据的属性是混合类型的数据类型的相似度怎么计算?【核心

数据对象的相似性度量问题【两个行的相似性】【属性之间的相似性是两个列】

相似性和相异性此涨彼消

标称

p为属性个数,m是两个对象属性取值相等的个数,p-m两个对象取值不相等的个数

二分
需要四个指标
 

非对称:
取0的可能性更高:尽管差异性很大但是因为取0概率高导致差异性不准
 

序数

取值转换为数值类型--把级别从低到高排序;
取值按公式转换
 

数值

用距离衡量
 

常用距离

闵氏距离

曼哈顿距离-出租车距离-沿着街道走走折线--高维
 

上确界距离

文档

余弦相似度
 

混合类型

f:每个属性
dij(f):在f属性上的相异度
前面为权重

属性之间的相关性

单相关和复相关

正相关和负相关

线性相关和非线性相关

不相关、完全相关、不完全相关

画散点图
相关系数

线性:

协方差

皮尔森相关系数

等级

最大信息系数MIC:用于度量高维数据中属性变量之间强相关性
 

属性和属性间的计算属于相关性分析--方法

C3

数据预处理主要包括哪些步骤?

数据清理、数据集成、数据转换、数据约减
 

简述数据清理的主要任务、常用方法、流程

处理缺失数据、平滑噪声、识别或移除异常(属性值的异常)、解决数据不一致的问题…
 

常用方法
 

缺失值

删除;
插补
 

异常值

噪音

不一致

实体识别技术

流程
 

流程:

右侧是数据清理的过程,首先import data导入数据,集中相关数据,处理缺失值,标准化【max-min这种,目标是统一特征维度的量纲】、规范化【变换后吻合一个分布zscore】,重复性检测、修正错误与丰富,导出

常用离散化方法有哪些?【看下游任务】

无监督

分箱

直方图

聚类(k-means)

有监督--类标签指导下

基于熵的方法

不断离散化

如何识别冗余属性?

通过相关性分析发现冗余属性
 

数值属性:相关系数、协方差
标称类型:卡方检验
 

常用的约减方法--前三个对数据量压缩,PCA是无监督的降维

回归

聚类

抽样

PCA

数据量的压缩

有参

回归

只保留参数wb,想生成数据集的时候直接在x上随机采样生成y值

无参

聚类

对每个簇抽样

抽样

有放回、无放回、分层

维度压缩

无监督pca

把原始的属性描述的特征空间映射为正交矩阵空间,尽可能多的保留原始数据信息
消除冗余--维度彼此独立
pca通过做正交矩阵分解,得到主成分,选前k个重要特征作为新的空间中的特征,把所有数据对象由前k个特征的线性组合表示

属性子集选择

Method1:删除冗余属性、删除不重要的…得到子集
Method2:添加最重要的、次重要的…得到子集
 

Vs

属性选择得到的特征有具体含义,PCA没有【黑箱】-可能可以得到非常好的特征提取但是可解释性差


 

olap

数仓的基本架构

简述数仓的数据模型及各模型特点

数据仓库与数据库的区别

关联规则挖掘

方法与评估指标
 

 两阶段

频繁项集的产生--关联规则的产生

频繁项集的实现

用了性质缩小频繁项集的空间

关联规则挖掘的内容

评估指标--常用支持度和置信度,并不一定是一个有意义的关联规则,

提升度

聚类

聚类和分类的区别

kmeans和DBSCAN的原理和流程和优缺点特点,对kmeans的缺点有哪些办法可以解决

k值需要确定

设置不同k值求sse,考虑拐点附近的k值

初始聚类中心的选择

第一个随机选,下一个选离当前选择的最远的

对噪声点和异常敏感【因为均值敏感】

使用k-medoids用真实数据对象作为中心-复杂度高-由簇中的数据对象替代;用k中位数

球形簇【基于距离】

空簇

选sse贡献最大的点作为簇中心,从簇中选一个对sse贡献最大的点,
 

尺寸:

密度:
 



非凸:
 

解决:
 

k取较大值分为多个小簇再合并

纵轴:第k个最近邻距离的变化范围
横轴:数据对象按最近邻距离编码
大部分数据对象的第k个最近邻的变化变化幅度不大,拐点飙升-异常点,当k取大,距离大
由此判断k

聚类的评估指标--有监督【和分类一样】和无监督【规范化的互信息与轮廓系数】

标准化的互信息-Y是聚类标签,C是真实标签-I(Y,C)互信息=H(C )-H(Y|C)yc依赖性越高越好

分类

roc怎么画

tpr是召回率
 

评估指标--精度召回率fscore

决策树、贝叶斯、集成

贝叶斯:易于实现,结果比较好,鲁棒的
有可能有依赖


集成
 

对于不稳定的分类器才有提升效果

评估框架--bootstrap cosostation??交叉验证的bootstrap

二分类问题

正事例
 

异常

异常的类型

异常的方法

基于统计、距离、密度、

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/229616.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

02.Git常用基本操作

一、基本配置 (1)打开Git Bash (2)配置姓名和邮箱 git config --global user.name "Your Name" git config --global user.email "Your email" 因为Git是分布式版本控制工具,所以每个用户都需要…

数据安全传输基础设施平台(一)

1引言 1.1项目简介 数据安全传输基础设置平台项目(简称,数据传输平台),是一款基础设施类项目,为集团、企业信息系统的提供统一、标准的信息安全服务;解决企业和企业之间,集团内部信息数据的传…

gitee提交代码步骤介绍(含git环境搭建)

1、gitee官网地址 https://gitee.com; 2、Windows中安装git环境 参考博客:《Windows中安装Git软件和TortoiseGit软件》; 3、设置用户名和密码 这里的用户名和密码就是登录gitee网站的用户名和密码如果设置错误,可以在Windows系统的“凭据管理…

【深度学习目标检测】九、基于yolov5的安全帽识别(python,目标检测)

YOLOv5是目标检测领域一种非常优秀的模型,其具有以下几个优势: 1. 高精度:YOLOv5相比于其前身YOLOv4,在目标检测精度上有了显著的提升。YOLOv5使用了一系列的改进,如更深的网络结构、更多的特征层和更高分辨率的输入图…

IDEA2023 + spring cloud 工程热部署设置方法

基于spring cloud 工程进行热部署 &#xff0c;实现每次修改工程源文件&#xff0c;后台自动启动&#xff0c;方便开发测试工作。具体分为5步骤即可&#xff1a; 1、修改工程的pom文件&#xff0c;增加adding devtools 工具包。 <dependency> <groupId>org.s…

js基础入门

先来一点js基础&#xff0c;其实js大部分的时候都在处理对象或者数组。 对象四个基本操作&#xff1a;增删改查 掌握元素的增删改查&#xff0c;了解如何拷贝&#xff0c;深拷贝和浅拷贝的区别。详情见代码 <script>//创建对象一共有三种赋值声明的语法let obj{} //赋值…

Vue 项目关于在生产环境下调试

前言 开发项目时&#xff0c;在本地调试没问题&#xff0c;但是部署到生产会遇到一些很奇怪的问题&#xff0c;本地又没法调&#xff0c;就需要在生产环境/域名下进行调试。 在这里介绍一个插件Vue force dev ,浏览器扩展里下载 即便是设置了Vue.config.devtoolsfalse 只要安…

认知能力测验,③如何破解语言常识类测试题?

作为认知能力测评中的一个环节&#xff0c;语言常识类&#xff0c;是大概率的出现&#xff0c;不同的用人单位可能略有不同&#xff0c;语言是一切的基础&#xff0c;而常识则意味着我们的知识面的宽度。 语言常识类的测试&#xff0c;如果要说技巧&#xff1f;难说....更多的…

maui sqlite开发一个商城加购物车的演示(3)

购物车界面及代码 <?xml version"1.0" encoding"utf-8" ?> <ContentPage xmlns"http://schemas.microsoft.com/dotnet/2021/maui"xmlns:x"http://schemas.microsoft.com/winfx/2009/xaml"xmlns:syncfusion"clr-namesp…

ArcMap自定义脚本工具箱迁移至ArcGIS pro

本文记录了将ArcMap10.7创建的自定义脚本工具箱&#xff08;.tbx&#xff09;迁移至ArcGIS pro的过程 ArcGIS Pro使用的是python版本与ArcMap不同&#xff0c;前者为python3&#xff0c;后者为python2。由于python3 和 python2 的部分语法不兼容&#xff0c;以及一些地理处理工…

87 GB 模型种子,GPT-4 缩小版,超越ChatGPT3.5,多平台在线体验

瞬间爆火的Mixtral 8x7B 大家好&#xff0c;我是老章 最近风头最盛的大模型当属Mistral AI 发布的Mixtral 8x7B了&#xff0c;火爆程度压过Google的Gemini。 缘起是MistralAI二话不说&#xff0c;直接在其推特账号上甩出了一个87GB的种子 随后Mixtral公布了模型的一些细节&am…

vue3的大致使用

<template><div class"login_wrap"><div class"form_wrap"> <!-- 账号输入--> <el-form ref"formRef" :model"user" class"demo-dynamic" > <!--prop要跟属性名称对应-->…

磁力计LIS2MDL开发(3)----九轴姿态解算

磁力计LIS2MDL开发.3--九轴姿态解算 概述视频教学样品申请完整代码下载使用硬件欧拉角万向节死锁四元数法姿态解算双环PI控制器偏航角陀螺仪解析代码 概述 LIS2MDL 包含三轴磁力计。 lsm6ds3trc包含三轴陀螺仪与三轴加速度计。 姿态有多种数学表示方式&#xff0c;常见的是四元…

服务器RAID配置及功能介绍

服务器RAID配置及功能介绍 一、RAID磁盘阵列详解1.RAID磁盘阵列介绍2.RAID 03.RAID14.RAID35.RAID56.RAID67.RAID 10总结阵列卡介绍 一、RAID磁盘阵列详解 1.RAID磁盘阵列介绍 ①是Redundant Array of lndependent Disks的缩写中文简称为独立冗余磁盘阵列。 ②把多块独立的物…

NBA得分数据可视化

简介 这是上学期的一些课外活动内容&#xff0c;将 NBA 得分数据进行可视化&#xff0c;并进行后续的探索性分析和建模&#xff08;本文未介绍&#xff09;。主要研究动机来源于这篇论文&#xff1a; 该论文使用二元的伽马过程来刻画 NBA 主客场得分数据&#xff0c;并且考虑了…

5.5 Linux Apache服务

1、概念介绍 a. Web 服务简介 WEB服务器也称为WWW(WORLD WIDE WEB&#xff0c;万维网)服务器&#xff0c;主要功能是提供网上信息浏览服务。 常用web服务器&#xff1a;httpd&#xff08;apache&#xff09;、nginx、tomcat、IIS 客户端&#xff1a;IE、firefox、chrome b…

高通平台开发系列讲解(AI篇)SNPE工作流程介绍

文章目录 一、转换网络模型二、量化2.1、选择量化或非量化模型2.2、使用离线TensorFlow或Caffe模型2.3、使用非量化DLC初始化SNPE2.4、使用量化DLC初始化SNPE三、准备输入数据四、运行加载网络沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇章主要介绍SNPE模型工作…

学习Java第70天,过滤器Filter简介

过滤器概述 Filter,即过滤器,是JAVAEE技术规范之一,作用目标资源的请求进行过滤的一套技术规范,是Java Web项目中最为实用的技术之一 Filter接口定义了过滤器的开发规范,所有的过滤器都要实现该接口 Filter的工作位置是项目中所有目标资源之前,容器在创建HttpServletRequest和…

【C++】POCO学习总结(十八):XML

【C】郭老二博文之&#xff1a;C目录 1、XML文件格式简介 1&#xff09;XML文件的开头一般都有个声明&#xff0c;声明是可选 <&#xff1f;xml version"1.0" encoding"UTF-8"?>2&#xff09;根元素&#xff1a;XML文件最外层的元素 3&#xff…