CDA数据分析师一级经典错题知识点总结(3)

1、SEMMA 的基本思想是从样本数据开始,通过统计分析与可视化技术,发现并转换最有价值的预测变量,根据变量进行构建模型,并检验模型的可用性和准确性。【强调探索性】

2、CRISP-DM模型Cross Industry Standard Process of Data Mining,被称为跨产业的数据挖掘标准流程
商业理解:其目的是要了解企业的整个运作过程。商业理解的作用主要是确定题目,即通过数据挖掘想要解决什么问题。【强调商业性】

数据理解:检查解决问题所需要的数据是否收集齐全,若没有则退回到商业理解这一步。

数据预处理:对收集到的数据进行处理,此阶段耗时最长。

建模:建立模型,若结果不好,则退回到数据预处理这一步,进行相应的调整。

评估:评估结果好就可以实施,评估结果不好就直接退回到商业理解这一步,重新开始。

实施:模型的实际应用。

3、数据分析的基本流程为以下6步曲

问题定义、数据获取、数据预处理、数据分析与建模、数据可视化、数据报告的撰写。

4、EXCEL常用函数:

日期函数:

EDATE 函数用于计算某个日期之前或之后的月份数。它的基本语法如下:

EDATE(start_date, months)

=EDATE("2024-01-01", 1) 返回 “2024-02-01”,即2024年1月1日加上1个月后的日期

  • start_date:起始日期。
  • months:你想要添加或减去的月份数。正值表示添加月份,负值表示减去月份。

EOMONTH 函数用于计算某个日期所在月份的最后一天。它的基本语法如下:

=EOMONTH("2024-01-15", 5) 返回 "2024-06-30”,即2024年1月15日所在月份的最后一天

5、主键的业务意义

表的业务记录单位,数据表中的非主键字段都要围绕主键展开,具备相关性。

6、ETL功能:Extract-Transform-Load,将数据从数据源端经过提取、清洗转换之后加载到数据仓库。

E:创建于数据源的连接,对数据进行引用

T:清洗–筛选过滤不完整、错误及重复的数据记录,转换–‘粒度’不一致、业务规则不一致

L:加载到数据仓库中存储和使用

7、from>where>group by >having >select >order by

8、开窗函数

在这里插入图片描述
实体完整性是是指每个表都有唯一的标识符–主键,主键不能为空或重复。

参照完整性是指外键的取值必须是另一个表的有效值或空值

用户定义完整性是指满足用户的某个需求,字段不为空等。

域完整性约束:域代表当前单元格,限制此单元格的数据正确。

9、集中趋势的描述 – 平均指标 各种数(众数、中位数、分位数、平均数)

大蒜有几条 算术>=几何>=调和平均数

离散程度的描述(各种差)–变异指标(极差、平均差、方差、四分位差、标准差、离散系数即变异系数)

描述性统计图表:直方图、散点图、箱线图

10、箱线图:
在Q3+1.5IQR和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限;在Q3+3IQR和Q1-3IQR处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers)。四分位距IQR=Q3-Q1。
在这里插入图片描述

统计分布:两点分布、二项分布、正态分布、卡方、t分布、F分布

相关关系:散点图、线性、正相关、协方差、相关系数

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

参数估计

95% 对应 1.96

90% 对应 1.645
在这里插入图片描述
汇总规则

单向,只能一表筛选多表

双向,多表可以筛选一表,但是用规则二
在这里插入图片描述
基本透视规则:合计、计数、平均、最大最小值

什么是指标?
在这里插入图片描述
基本指标:求和类(常规求和、累计求和、时间维度下累计指标)、计数类、比较类(差异百分比、均比、定基比增长率、同环比增长率)
场景指标:
在这里插入图片描述

可视化报表和业务分析报告的差异:
在这里插入图片描述
RFM模型

重要价值用户–保持现状

重要发展用户–提升频次

重要保持用户–用户回流

重要挽留用户–重点召回

业务分析决策树

1.比较类

图表–油量表、进度图、柱图、条形图、雷达图、词云图、树状图、地图

2.序列类

图表(连续、有序类别的数据波动)折线图、面积图、柱图、漏斗图

3.构成类

图表–环状图、饼图、堆积图、瀑布图

4.描述类

图表–直方图、盒须图、气泡图、散点图

报告撰写流程: 业务理解→数据收集→数据处理→数据分析→图表制作→报告绘制

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/892469.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Uniapp-Vue3】v-for列表渲染的用法

如果我们想要重复渲染多个元素,就可以使用v-for进行渲染。 比如我们想要将元素渲染5次: 如果我们想要知道当前元素是渲染的第几个,可以在v-for的时候添加参数index,并在差值表达式中填入index: 则index会以0开始进行渲…

《新闻大厦抢先版》V0.18.105+Dlcs官方学习版

《新闻大厦抢先版》官方版https://pan.xunlei.com/s/VODaeUn3v-ZWVvvmUMfo5AqWA1?pwdnhpz# 建造并不断优化新闻大楼,保障员工权益并及时赶上周日的印刷交期! 招募并管理不同职业以登上成功的阶梯:记者、摄像师、勤杂工,除此以外…

解锁3D模型转换:STL转OBJ全攻略

一、3D模型转换的基石:STL与OBJ格式概览 在3D模型的世界里,STL和OBJ格式犹如两大基石,支撑着模型创建、编辑、转换与应用的方方面面。了解它们的特性,是深入探究3D模型转换的关键第一步。 1.1 STL格式深度剖析 STL 全称为Stereo…

RK3568 Android 13 内置搜狗输入法小计

问:为什么写? 答:网上搜出来的都试过了,不行!下面直接上代码和注意事项! 首先到这个目录(/RK3568/Rockchip_Android13_SDK_Release/device/rockchip/rk356x/tl3568_evm/preinstall&#xff09…

windows10下安装Microsoft SQL Server 2016

一、下载安装包 网站:MSDN, 我告诉你 - 做一个安静的工具站 选择需要的版本,点击详细信息,复制ed2k链接,打开eMule或迅雷,新建下载,粘贴链接,开始下载。 下载好的文件是一个.iso镜像文件。 二、…

探索图像编辑的无限可能——Adobe Photoshop全解析

文章目录 前言一、PS的历史二、PS的应用场景三、PS的功能及工具用法四、图层的概念五、调整与滤镜六、创建蒙版七、绘制形状与路径八、实战练习结语 前言 在当今数字化的世界里,视觉内容无处不在,而创建和编辑这些内容的能力已经成为许多行业的核心技能…

IDEA Maven构建时报错:无效的目标发行版17

报错分析 报错原因:Maven 构建时,Java 版本配置不匹配 我安装的JDK版本是1.8,但由于种种原因,Maven构建时指定了 Java 17 作为目标发行版,从而导致错误 解决方案 首先,java -version,查看环…

西电-神经网络基础与应用-复习笔记

此为24年秋研究生课程复习笔记 导论 神经网络的研究方法分为 连接主义,生理学派,模拟神经计算。高度的并行、分布性,很强的鲁棒和容错性。便于实现人脑的感知功能(音频图像的识别和处理)。符号主义,心理学派,基于符号…

Gitlab-Runner配置

原理 Gitlab-Runner是一个非常强大的CI/CD工具。它可以帮助我们自动化执行各种任务,如构建、测试和部署等。Gitlab-Runner和Gitlab通过API通信,接收作业并提交到执行队列,Gitlab-Runner从队列中获取作业,并允许在不同环境下进行作…

LLM 智能视频字幕助手,支持生成、断句、优化、翻译、视频合成全流程

卡卡字幕助手(VideoCaptioner)是一款功能强大的视频字幕配制软件。操作简单且无需高配置,利用大语言模型进行字幕智能断句、校正、优化、翻译,一键为视频配上效果惊艳的字幕。 🎯 可使用强大的语音识别引擎&#xff0c…

GitLab本地服务器配置ssh和克隆项目

1. 本地安装好git git链接:https://git-scm.com/downloads/win 无脑点击下一步安装即可,打开Git Bash命令终端如下: 2. 配置本地用户名和邮箱 git config --global user.name "你的名字" git config --global user.email "你的邮箱&quo…

Unity热更新 之 Addressables(2) 本地/远端打包 流程测试

基础篇:Unity热更新 之 Addressables(1) 资源基础加载-CSDN博客 基础方法来源于唐老狮,我也是初学热更这一块,所有不保证步骤完全正确,如有不足还请斧正 目录 0.前提 1.本地打包 1.1.资源放入包 1.2.简化路径名称给出标签(如有需要的话) …

HDFS架构原理

一、HDFS架构整体概述 HDFS是Hadoop Distribute File System 的简称,意为:Hadoop分布式文件系统。HDFS是Hadoop核心组件之一,作为大数据生态圈最底层的分布式存储服务而存在。HDFS解决的问题就是大数据如何存储,它是横跨在多台计算机上的文件…

Qiskit快速编程探索(进阶篇)

五、量子电路模拟:探索量子世界的虚拟实验室 5.1 Aer模拟器:强大的模拟引擎 在量子计算的探索旅程中,Aer模拟器作为Qiskit的核心组件之一,宛如一座功能强大的虚拟实验室,为开发者提供了在经典计算机上模拟量子电路运行的卓越能力。它打破了硬件条件的限制,使得研究者无…

rust学习——环境搭建

rust安装:https://kaisery.github.io/trpl-zh-cn/ch01-01-installation.html 1、vscode装插件: toml语法支持 依赖管理 rust语法支持 2、创建demo 3、查看目录 4、执行文件的几种方式: rust安装:https://www.rust-lang.org/z…

继承(7)

大家好,今天我们继续来学习一下继承的知识,这方面需要大家勤动脑才能理解,那么我们来看。 1.9 protected关键字 在类和对象章节中,为了实现封装特性,java中引入访向限定符,主要限定:类或者类中成员能否在类外和其他包中被访问. …

玩转大语言模型——langchain调用ollama视觉多模态语言模型

系列文章目录 玩转大语言模型——ollama导入huggingface下载的模型 langchain调用ollama视觉多模态语言模型 系列文章目录前言使用Ollama下载模型查找模型下载模型 测试模型ollama测试langchain测试加载图片加载模型 模型回复 前言 视觉多模态语言模型由预训练的多模态编码器…

J-LangChain - 复杂智能链流式执行

系列文章索引 J-LangChain 入门 介绍 j-langchain是一个Java版的LangChain开发框架,具有灵活编排和流式执行能力,旨在简化和加速各类大模型应用在Java平台的落地开发。它提供了一组实用的工具和类,使得开发人员能够更轻松地构建类似于LangC…

【翻译】2025年华数杯国际赛数学建模题目+翻译pdf自取

保存至本地网盘 链接:https://pan.quark.cn/s/f82a1fa7ed87 提取码:6UUw 2025年“华数杯”国际大学生数学建模竞赛比赛时间于2025年1月11日(周六)06:00开始,至1月15日(周三)09:00结束&#xff…

C# GID+绘制不透明和半透明的线条

绘制线条时,必须将 Pen 对象传递给 DrawLine 类的 Graphics 方法。 Pen 构造函数的参数之一是 Color 对象。 若要绘制不透明的线条,请将颜色的 alpha 分量设置为 255。 若要绘制半透明的线条,请将 alpha 分量设置为从 1 到 254 的任何值。 在…