CDA二级(Level II)数据分析师——考试内容梳理四

定额抽样不属于概率抽样类型抽样就是分群抽样

假设检验中,两类错误的概率相加后不等于1,
在样本量增大的条件下,两类错误的概率可以同时减小,
通常控制第一类错误的概率 ;(去真

假设检验使用的是反证法,即先提出一个关于总体参数的假设,然后用样本数据来检验这个假设是否可能为真

在假设检验中,左侧检验为>=,右侧检验为<=,指原假设

区间估计是使用顺推法,即先不对总体参数提出具体假设,而是基于样本统计量来估计总体参数可能存在的区间

假设在T分布下,实际算出来的统计量的值为2.75,P=T.DIST(2.75:2:TRUE)
P值的实质是当前的临界点与分布曲线所围城的曲线面积,求累积分布

在大样本(n)下进行某列(A)均值的区间估计,点估计值为α,显著性水平为0.05
Z0.025为给定的显著性水平下的正太分布的临界值:
EXCEL计算:α±Z0.025*STDEV.S(A:A)/(AQRT(n),大样本为n小样本为n-1

区间估计的结果为点估计的值加减一定倍数的标准差

单因素方差分析中,当p<0.05,则接受备择假设,即至少有两组之间的均值有显著性差异

单因素方差分析的假设
1.每个总体服从正太分布
2.每个总体的方差相同
3.从每个总体中抽取的样本是相互独立的

在不知道具体比例的情况下,通常取P=0.5来计算最大样本量

方差分析主要用来比较两个或多个组的平均数差异,通常自变量是分类型,因变量是连续型

相对于主成分分析而言,因子分析时更偏向解释的分析时,需要进行因子分析,而类似于综合排名、综合打分这样无需进行解释的分析可以进行主成分分析

因子分析通常不适用于预测模型 ,它更侧重于变量的可解释性非预测准确性

进行主成分分析(PCA)之前,如果变量的取值范围相差很大,先对每个变量进行中心化,然后使用相关系数矩阵代替协方差矩阵计算主成分;

多元线性回归模型m,输出模型的残差图:plt.scatter(m.predict(data),m.resid),
resid:残差序列

在进行逻辑回归模型的系数解释时,应借助优势比的概念来进行,所以1作为参考进行解释;

在逻辑回归中,使用classification_report输出分类报告时要求输入的是真实标签和预测标签
classification_report(y,y_hat) 预测;

在逻辑回归模型中,使用约登指数来确定最优阈值,具体是选择使得==(tpr-fpr)==达到最大的时候的阈值作为最优阈值

逻辑回归通过logit模型转换后,输出0-1的概率值

目标函数包括决策变量;

高斯马尔科夫假设中,线性回归对·残差序列·的假设包括:不相关、正态性和同方差

岭回归和Lasso回归属于·收缩方法·,
可以处理多重共线性问题,但会改变原有回归模型

向后回归法要求样本量必须大于自变量的个数,否则模型会过拟合

QQ检验确保扰动性服从正太分布

时间序列差分操作中,包括·阶次差分·主要是用来消除长期趋势的影响,而·步次差·分主要是用来消除季节效应的影响先阶次再步次

在对时间序列模型进行评估时,常用的方法是残差的噪声检验

聚类算法:A(2,3) B(5,-1)
欧氏距离求斜线,结果为5
曼哈顿距离求绝对值,结果为|5-2|+|-1-3|=7

在使用Excel计算假设检验中对应的p值时,使用的函数是DIST(),计算临界值时使用的函数是INV();

根据数据收集方式的分类,分为实验数据和观测数据观测数据又分为追溯型跟踪数据

数据治理域包括:数据战略与规划、组织架构与职责、管理流程与管理制度;

数据应用域包含:监管报表应用、精准营销应用、产品创新应用;

设计逻辑模型时,要遵循范式的设计概念,减少冗余,完整性和可扩展性;

OLAP系统的响应时间合理OLTP系统对响应时间要求高

概念模型描述企业内主要业务的实体及实体间的业务关系,不需要对实体属性具象化;
学校→学生→应用

在信息不足的情况下,对照其它信息源进行修正;

指标不足的情况下,对照其它信息源进行修正;

指标体系包括:根指标、组合指标、派生指标,用户指标属于维度库;
根指标:销售额、净利润
组合指标:客单价=销售额/下单用户数
派生指标:客户流失率=流失用户数/总用户数,流失用户数为组合指标
根指标+维度指标→组合指标+根指标→派生指标

连续型变量
中心标准化Xi-mean(x)/Stdx
归一化Xi-min(x)/max(x)-min(x)

分箱
等宽取值范围一样
等深观察值数量一样

期望频数=(行数/样本量列数/样本量)样本量=(行数列数)/样本量)
卡方贡献=(观察频数-期望频数)2/期望频数) 远大于增大贡献率
卡方检验自由度=(行数-1)
(列数-1)

Python抽样:
1.random.sample:无放回→replace→False
2.random.choice:没有指定replace,默认True,有放回;

apply方法不能用来填充缺失值,lambda函数针对的是一个元素值,而不是一个series对象;

data_raw[‘gender’]=data_raw[‘gender’].replace({‘Male’:1,‘Female’:0}),
可以用于数据编码,并未处理缺失值;

sklearn+PCA:
preprocessing.scale(data):标准化到均值0方差1,不是归一化,是中心化
PCA(n_comporents=9):将数据降维到9个成分,不是降维了
pca.explanined_variance_:输出降维后各主成分的方差
pca.explanined_variance_:各主成分方差占总差分的比例

Python中删除多列的方式为:
df.drop(["A’,‘B’].axix=1),指定列
df.drop(columns=[‘A’,‘B’]),指定列名

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/855164.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

线性稳压器LDO的基础知识

一、什么是线性稳压器? 线性稳压器的工作原理是&#xff1a;采用一个压控电流源以强制在稳压器输出端上产生一个固定电压。控制电路连续监视&#xff08;检测&#xff09;输出电压&#xff0c;并调节电流源&#xff08;根据负载的需求&#xff09;以把输出电压保持在期望的数值…

【Spine学习12】之 事件帧

1、新建事件帧&#xff1a; 2、选择第8s的攻击帧&#xff0c;点击第一步新建的attack事件帧前面的钥匙 这样每次动作到8s的时候会自动跳出事件帧提示 这个文字实际动画不会显示 事件是动画过程中所发生情况的触发器。 给程序员识别的

分享:2024年(第12届)“泰迪杯”数据挖掘挑战赛省级奖项获奖名单公示

本次竞赛有评选省奖的省份有广东省、广西壮族自治区、河北省、湖北省。各省奖项依据“泰迪杯”全国评审专家组统一评阅的最终成绩区分省份后从高到低依序按比例产生。 广东省 省级奖项获奖名单公示 奖项设置&#xff1a; 一等奖&#xff1a;约占该省份队伍总数的5%&#xff0…

Android开发系列(四)Jetpack Compose之Button

在Jetpack Compose中&#xff0c;Button是一个常用的用户界面组件&#xff0c;用于执行某些操作或触发某些事件。Button控件是可触摸的&#xff0c;并且通常会显示一个文本或图标来表示其功能。 要在Jetpack Compose中创建一个Button&#xff0c;可以使用Button()函数&#xf…

Shell中执行.sh文件的常见方式

在Shell中执行.sh文件有几种常见的方式&#xff0c;具体取决于你希望如何执行这个脚本文件。以下是一些常用的方法&#xff1a; 直接运行&#xff1a; ./script.sh 这是最简单的方式。在当前Shell会话中执行脚本文件。 使用bash命令执行&#xff1a; bash script.sh 明确使用b…

shell学习记录

shell简介 参考博文1 参考博文2——shell语法及应用 参考博文3——vi的使用 在linux中有很多类型的shell&#xff0c;不同的shell具备不同的功能&#xff0c;shell还决定了脚本中函数的语法&#xff0c;Linux中默认的shell是 / b in/ b a s h &#xff0c;流行的shell有as…

spring @Order注解

Order 注解的作用&#xff1a;Order 注解通常用于同一类型的多个处理器之间的排序 Order 注解的确是用来控制同一类型的多个处理器、切面或过滤器的执行顺序。为了更好地理解这一点&#xff0c;我们可以通过一些具体的例子来说明。 示例 1: 多个异常处理器 假设你有多个异常…

pgsql给单独数据库制定账号权限

登录到PostgreSQL: 使用psql或其他PostgreSQL客户端&#xff0c;以具有足够权限的账号&#xff08;如postgres或superuser&#xff09;登录。 2. 创建新账号: sql复制代码 CREATE USER new_user WITH PASSWORD your_secure_password; 注意&#xff1a;将your_secure_passwor…

B-splines曲线的绘制(Matlab)

虽然在这个链接三次 Bspline(B样条曲线) NURBS曲线的绘制 matlab_三次b样条曲线的绘制-CSDN博客中我们介绍了NURBS曲线&#xff0c;然而有时候我们通过B-spline曲线也能够解决问题。B-spline曲线作为NURBS曲线的一种特例&#xff0c;这里给出均匀B-spline曲线的表达式&#xff…

【Arc gis】Arc gis出现ERROR 999999问题的解决办法

地址&#xff1a;ArcGIS中ERROR 999999报错Configuration RasterCommander ImageServer can not be started解决_投影栅格失败error999999-CSDN博客

基于IDEA的Maven简单工程创建及结构分析

目录 一、用 mvn 命令创建项目 二、用 IDEA 的方式来创建 Maven 项目。 &#xff08;1&#xff09;首先在 IDEA 下的 Maven 配置要已经确保完成。 &#xff08;2&#xff09;第二步去 new 一个 project &#xff08;创建一个新工程&#xff09; &#xff08;3&#xff09;…

论文精读——KAN

目录 1.研究背景 2.关键技术 2.1 原始公式 2.2 KAN结构 2.3 缩放定律 3.技术扩展 4.模型效果 5.相关讨论 6.总结 文章标题&#xff1a;《KAN: Kolmogorov–Arnold Networks》 文章地址&#xff1a; KAN: Kolmogorov-Arnold Networks (arxiv.org)https://arxiv.org/a…

再次递表港交所,慧算账能否把握AI+财税SaaS机遇?

5月以来&#xff0c;港股IPO市场日渐兴旺&#xff0c;多家公司实现上市首日“零破发”&#xff0c;平均收涨约30%&#xff0c;6月更是出现了超2500倍超购新股。市场赚钱效应显现&#xff0c;投资者打新随之热情高涨&#xff0c;越来越多国内企业也开始抓紧赴港上市。 近日&…

Android-app自动更新总结(已适配9-0)(1)

} //检查版本号&#xff0c;第一次请求(post)&#xff0c;&#xff0c;&#xff0c;UpdateAppBean根据服务器返回生成 private void requestAppUpdate(int version, final DataRequestListener listener) { OkGo.post(Const.HOST_URL Const.UPDATEAPP).params(“version”, v…

vue element-ui 下拉框 以及 input 限制输入,小数点后保留两位 界面设计案例 和 例子:支持mp4和m3u8视频播放

vue input 限制输入&#xff0c;小数点后保留两位 以及 图片垂直居中显示 和 分享 git 小技巧-CSDN博客文章浏览阅读430次&#xff0c;点赞5次&#xff0c;收藏4次。error:Your local changes to the following files would be overwritten by merge:_error: your local change…

Python 介绍——浔川python社

python简介 Python是一种高级、通用的编程语言&#xff0c;由Guido van Rossum于1989年创建。它被设计为易于阅读和理解&#xff0c;并且具有简洁的语法&#xff0c;使得开发人员能够更快地编写代码。 Python被广泛用于不同的领域&#xff0c;包括Web开发、数据分析、人工智能…

2024.6.18 作业 xyt

今日作业&#xff1a; 1. 完善对话框&#xff0c;点击登录对话框&#xff0c;如果账号和密码匹配&#xff0c;则弹出信息对话框&#xff0c;给出提示”登录成功“&#xff0c;提供一个Ok按钮&#xff0c;用户点击Ok后&#xff0c;关闭登录界面&#xff0c;跳转到其他界面 如果…

广东省省站节能检测试题库(2024年)

1.外墙外保温系统耐候性试验设备,测温点不应少于( ),每个测温点的温度与平均温度偏差不应大于( )。 A、2个,5℃ B、4个,5℃ C、2

未来谁主沉浮? / 全能AI模型的发展趋势和展望

在近日腾讯元宝APP的正式上线后&#xff0c;国内大模型产品如雨后春笋般涌现&#xff0c;引发了广泛的关注。在这股AIGC&#xff08;人工智能生成内容&#xff09;的热潮中&#xff0c;我也体验过不少全能型的大模型产品。那么&#xff0c;这些产品有哪些优缺点呢&#xff1f;在…

C++ 64 之 函数模版和普通函数调用规则

#include <iostream> #include <string> using namespace std;template<typename T> void myPrint(T a, T b){cout << "函数模板的调用" << endl; }void myPrint(int a, int b){cout << "普通函数调用" << endl…