大数据知识合集之数据分析方法论

常用数据分析方法:描述统计、假设检验、信度分析、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分分析、因子分析、时间序列分析等。

1、描述性统计分析

描述性统计分析是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析。

集中趋势分析:主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。

离中趋势分析:主要靠全距、四分差、平均差、方差(协方差:用来度量两个随机变量关系的统计量)、标准差等统计指标来研究数据的离中趋势。

2、假设检验

假设检验简单来说先凭借自己的直觉,经验,知识的储备做出合理的假设,再通过数据进行验证假设是否正确。主要包含:参数检验和非参数检验。

  1. 参数检验

参数检验是在已知总体分布的条件下(一般要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验 ,常用参数检验方法有:U检验法、T检验法

  1. 非参数检验

非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。常用非参数检验方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。

3、信度分析

信度(Reliability) :即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。一般多用于性格测试、问卷调查等。

信度指标多以相关系数表示,大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种:重测信度法、复本信度法、折半信度法、α信度系数法。

1)重测信度法: 用同样的问卷对同一组被调查者间隔一定时间重复施测,计算两次施测结果的相关系数。显然,重测信度属于稳定系数。

重测信度法特别适用于事实式问卷,如性别、出生年月等在两次施测中不应有任何差异,大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变化。如果没有突发事件导致被调查者的态度、意见突变,这种方法也适用于态度、意见式问卷。

由于重测信度法需要对同一样本试测两次,被调查者容易受到各种事件、活动和他人的影响,而且间隔时间长短也有一定限制,因此在实施中有一定困难。

2)复本信度法: 让同一组被调查者一次填答两份问卷复本,计算两个复本的相关系数。复本信度属于等值系数。复本信度法要求两个复本除表述方式不同外,在内容、格式、难度和对应题项的提问方向等方面要完全一致,而在实际调查中,很难使调查问卷达到这种要求,因此采用这种方法者较少。

3)折半信度法: 是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信度。折半信度属于内在一致性系数,测量的是两半题项得分间的一致性。

这种方法一般不适用于事实式问卷(如年龄与性别无法相比),常用于态度、意见式问卷的信度分析。在问卷调查中,态度测量最常见的形式是5级李克特(Likert)量表。进行折半信度分析时,如果量表中含有反意题项,应先将反意题项的得分作逆向处理,以保证各题项得分方向的一致性,然后将全部题项按奇偶或前后分为尽可能相等的两半,计算二者的相关系数(rhh,即半个量表的信度系数),最后用斯皮尔曼-布朗(Spearman-Brown)公式求出整个量表的信度系数(ru)。

4)α信度系数法: 是目前最常用的信度系数,其公式为:α=(k/(k-1))*(1-(∑Si2)/ST2)

其中,K为量表中题项的总数, Si^2为第i题得分的题内方差, ST^2为全部题项总得分的方差。从公式中可以看出,α系数评价的是量表中各题项得分间的一致性,属于内在一致性系数。这种方法适用于态度、意见式问卷(量表)的信度分析。

总量表的信度系数最好在0.8以上,0.7-0.8之间可以接受;分量表的信度系数最好在0.7以上,0.6-0.7还可以接受。Cronbach 's alpha系数如果在0.6以下就要考虑重新编问卷。

4、方差分析

方差分析其实就是假设检验中的F-检验,主要针对的是两个及以上样本均值差别的显著检验。通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。

使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。

单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系;

多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系;

多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系;

协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,使之影响了分祈结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法。

5、相关分析

相关分析:研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。

例如,人的身高和体重之间;空气中的相对湿度与降雨量之间是否存在依存关系,都是相关分析研究的问题。

相关分析的方法很多,初级的方法可以快速发现数据之间的关系,如正相关,负相关或不相关。中级的方法可以对数据间关系的强弱进行度量,如完全相关,不完全相关等。高级的方法可以将数据间的关系转化为模型,并通过模型对未来的业务发展进行预测。

例如:以下是每日广告曝光量和费用成本的数据,每一行代表一天中的花费和获得的广告曝光数量。凭经验判断,这两组数据间应该存在联系,但仅通过这两组数据我们无法证明这种关系真实存在,也无法对这种关系的强度进行度量。因此我们希望通过相关分析来找出这两组数据之间的关系,并对这种关系进度度量。

单纯从数据的角度很难发现其中的趋势和联系,而将数据点绘制成图表后趋势和联系就会变的清晰起来。对于有明显时间维度的数据,我们选择使用折线图和散点图分别进行分析。

  1. 通过折线图

为了更清晰的对比这两组数据的变化和趋势,我们使用双坐标轴折线图,其中主坐标轴用来绘制广告曝光量数据,次坐标轴用来绘制费用成本的数据。通过折线图可以发现,费用成本和广告曝光量两组数据的变化和趋势大致相同,从整体的大趋势来看,费用成本和广告曝光量两组数据都呈现增长趋势。从规律性来看费用成本和广告曝光量数据每次的最低点都出现在同一天。从细节来看,两组数据的短期趋势的变化也基本一致。

经过以上这些对比,我们可以说广告曝光量和费用成本之间有一些相关关系,但这种方法在整个分析过程和解释上过于复杂,如果换成复杂一点的数据或者相关度较低的数据就会出现很多问题。

  1. 通过散点图

比折线图更直观的是散点图。散点图去除了时间维度的影响,只关注广告曝光量和费用成本这里两组数据间的关系。在绘制散点图之前,我们将费用成本标识为X,也就是自变量,将广告曝光量标识为y,也就是因变量。下面是一张根据每一天中广告曝光量和费用成本数据绘制的散点图,X轴是自变量费用成本数据,Y轴是因变量广告曝光量数据。从数据点的分布情况可以发现,自变量x和因变量y有着相同的变化趋势,当费用成本的增加后,广告曝光量也随之增加。

折线图和散点图都清晰的表示了广告曝光量和费用成本两组数据间的相关关系,优点是对相关关系的展现清晰,缺点是无法对相关关系进行准确的度量,缺乏说服力。并且当数据超过两组时也无法完成各组数据间的相关分析。若要通过具体数字来度量两组或两组以上数据间的相关关系,需要使用第二种方法:协方差。

具体参考:https://blog.csdn.net/longxibendi/article/details/82558801

6、回归分析

回归分析研究的是因变量和自变量之间的定量关系,运用十分广泛,可以用于房价预测、销售额度预测、贷款额度预测等。常见的回归分析有线性回归、非线性回归、有序回归、岭回归、加权回归等。

线性回归(Linear regression) :是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。

一元线性回归分析: 只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布。

多元线性回归分析:分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布 。

Logistic回归分析:Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况。

Logistic回归分为条件Logistic回归和非条件Logistic回归,条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计是否用到了条件概率。

回归分析与相关分析的联系:

相关分析是回归分析的基础和前提。假若对所研究的客观现象不进行相关分析,直接作回归分析,则这样建立的回归方程往往没有实际意义。只有通过相关分析,确定客观现象之间确实存在数量上的依存关系,而且其关系值又不确定的条件下,再进行回归分析,在此基础上建立回归方程才有实际意义。

回归分析是相关分析的深入和继续。对所研究现象只作相关分析,仅说明现象之间具有密切的相关关系是不够的,统计上研究现象之间具有相关关系的目的,就是要通过回归分析,将具有依存关系的变量间的不确定的数量关系加以确定,然后由已知自变量值推算未知因变量的值,只有这样,相关分析才具有实际意义。

回归分析侧重于研究随机变量间的依赖关系,以便用一个变量去预测另一个变量;相关分析侧重于发现随机变量间的种种相关特性。

7、聚类分析

聚类分析是指样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量。

通常,我们遇到的很多数据都没有很明确或具体的分类标签,我们利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高,组间对象相似性较低。

在用户研究中,很多问题可以借助聚类分析来解决,比如,网站的信息分类问题、网页的点击行为关联性问题以及用户分类问题等等。其中,用户分类是最常见的情况。常见的聚类方法有不少,比如K均值(K-Means),谱聚类(Spectral Clustering),层次聚类(Hierarchical Clustering) 等。

聚类分析是一种缺乏分类标签的分类方法,当我们对数据进行聚类并得到簇后,一般会单独对每个类进行深入分析,从而得到更加细致的结果。

以最为常见的K-means为例,K-means聚类步骤图解如下:

1)随机设置K个特征空间内的点作为初始的聚类中心,比如图2中的红蓝黄三个点作为聚类中心(图1–>图2);

2)对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别(图3–>图4);

3)接着对着标记的聚类中心,重新计算出每个聚类的新中心点(平均值)((图5–>图6));

4)如果计算得出的新中心点与原中心点一样,那么结束,否则重新进行第二步过程;

8、判别分析

判别分析:根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体。主要包括以下几种方法:

l Fisher判别分析法

l BAYES判别分析法

9、主成分分析与因子分析

主成分分析(PCA): 主要是利用降维的思想,将K维数据映射到N维上,N维是全新的正交特征。

因子分析: 用少数的几个因子去描述因素之间的关系,把冗余,杂乱的变量归结于几个主要的不相关的因子。类似于初中学因式分解。具体的方法有很多,如重心法、影像分析法,最大似然解、最小平*方法、阿尔发抽因法、拉奥典型抽因法等等。

主成分分析与因子分析的区别:

主成分分析做的仅为变量变换,将原始变量进行线性组合得到互相正交的新变量。因子分析需要构造因子模型,用潜在的假想变量(不可观测的潜在变量)和随机影响变量的线性组合表示原始变量。

10、时间序列分析

数据序列分析:是动态数据处理的统计方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。

时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动;

主要方法:移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回归横型、ARCH族模型。

文章来源:网络 版权归原作者所有

上文内容不用于商业目的,如涉及知识产权问题,请权利人联系小编,我们将立即处理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/807238.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

头歌-机器学习 第16次实验 EM算法

第1关:极大似然估计 任务描述 本关任务:根据本节课所学知识完成本关所设置的选择题。 相关知识 为了完成本关任务,你需要掌握: 什么是极大似然估计; 极大似然估计的原理; 极大似然估计的计算方法。 什么是极大似然估计 没有接触过或者没有听过”极大似然估计“的同学…

开源模型应用落地-chatglm3-6b-zero/one/few-shot-入门篇(五)

一、前言 Zero-Shot、One-Shot和Few-Shot是机器学习领域中重要的概念,特别是在自然语言处理和计算机视觉领域。通过Zero-Shot、One-Shot和Few-Shot学习,模型可以更好地处理未知的情况和新任务,减少对大量标注数据的依赖,提高模型的…

PWM、通信、串口通信、UART、TTL、51单片机串口通信、定时器初值的计算公式

我要成为嵌入式高手之4月8日51单片机第三天!! ———————————————————————————— PWM 脉冲宽度调制(PWM),是英文“Pulse Width Modulation”的缩写,简称脉宽调制,是利用微处理器的数字输出来…

护眼台灯怎么选看哪些指标?兼顾性能与性价比护眼灯十大品牌推荐

对于长时间面对电子屏幕的上班族和学业负担重的学生族来说,他们的眼睛承受着巨大压力。加之不良的用眼习惯,导致近视人数不断增加。然而,良好的光线对眼睛健康至关重要。适宜的照明可以提供舒适的环境,减轻眼睛的负担。因此&#…

锂电池升降压转换利器:PW2224转换器,实现3.3V高效持续输出

描述: PW2224是一款专为锂电池供电设备设计的高效单电感降压-升压转换器。这款转换器能够在3V至4.2V的锂电池输入电压范围内工作,实现升降压模式自动切换,稳定输出3.3V电压,并持续提供高达1A的负载电流。此外,PW2224的…

栈的弹出压入弹出顺序

栈的压入弹出顺序 题目算法原理代码实现 题目 栈的压入弹出顺序 给定一个栈的压入顺序,然后再给定一个栈的弹出顺序,问这个两个顺序是否匹配 算法原理 定义一个栈s,我们先把栈的压入顺序数组的元素压入栈中,直到栈顶元素等于弹…

centos安装nginx php mysql redis mongodb 并配置kohana环境

安装nginx 43 wget http://nginx.org/download/nginx-1.9.9.tar.gz 44 tar -zxvf nginx-1.9.9.tar.gz 45 cd nginx-1.9.9 47 mkdir /work 48 ./configure --prefix/work/nginx-1.9.9 --with-pcre 49 cd /work/ 50 ls 51 cd /download/ 52 cd nginx-1.9.9 53 yum inst…

UE5、CesiumForUnreal实现加载建筑轮廓GeoJson数据生成白模功能

1.实现目标 在UE5.3中,通过加载本地建筑边界轮廓面GeoJson数据,获取底面轮廓和楼高数据,拉伸生成白模,并支持点选高亮。为防止阻塞Game线程,使用了异步任务进行优化,GIF动图如下所示: 其中建筑数量:128871,顶点索引数量:6695748,三角面数量:2231916,顶点数量:165…

Qt窗口的闪烁QWebEngineView

Qt窗口的闪烁QWebEngineView 1.使用了QWebEngineView2.崩溃3.切换页面闪屏4.Qt窗口切换导致的闪烁 1.使用了QWebEngineView 2.崩溃 解决方法:析构增加 delete m_webEngineView;m_webEngineView nullptr;3.切换页面闪屏 setWindowFlags(Qt::FramelessWindowHint);…

PaddleOCR 图片日期识别

目录 一 . 获取图片信息种对应坐标区域日期信息 (类型为1:http链接 类型为 2本地图片路径) 二 . ocr图片识别日期信息获取,调用获取图片区域相应位置方法 三 . 如有所需获取rtsp流回放格式 四 . 完整代码如下 &#xff08…

Oracle数据库部署

安装前设置 1:在windows中把需要的软件共享 2:linux中挂载共享,将所需软件全拷贝到usr/src中(包括java和oracle) [rootoracle~]# mkdir /oracle (创建共享目录) [rootoracle~]# mount -o user…

计算机网络-OSPF路由汇总

一、路由汇总 路由汇总又被称为路由聚合,即是将一组前缀相同的路由汇聚成一条路由,从而达到减小路由表规模以及优化设备资源利用率的目的,我们把汇聚之前的这组路由称为精细路由或明细路由,把汇聚之后的这条路由称为汇总路由或聚合…

高速开箱机在现代生产线中的角色与价值

在快节奏的现代工业生产中,高速开箱机已成为不可或缺的重要设备。它不仅大幅提升了生产线的效率,更在确保产品质量、降低成本、增强市场竞争力等方面发挥着重要作用。星派将详细探讨高速开箱机在现代生产线中的角色与价值。 一、高速开箱机的功能特点 高…

算法练习第五十一天| 309.最佳买卖股票时机含冷冻期、714.买卖股票的最佳时机含手续费

309.最佳买卖股票时机含冷冻期 714.买卖股票的最佳时机含手续费 309.最佳买卖股票时机含冷冻期 class Solution {public int maxProfit(int[] prices) {//dp[i][j],第i天状态为j,所剩的最多现金为dp[i][j]/**dp[i][0] 持有股票状态dp[i][1] 保持保持卖出…

为什么学生很难真正学好嵌入式?

10几年前,我是读电气工程专业,学了很多东西,结构,电机、绘图,plc等等.. 其实,都没什么鸟用,出来还是像个废物。 后面我自学转了单片机开发,说句难听点,自己买个开发板都比…

实用工具系列-ADB使用方式

作者持续关注 WPS二次开发专题系列,持续为大家带来更多有价值的WPS开发技术细节,如果能够帮助到您,请帮忙来个一键三连,更多问题请联系我(WPS二次开发QQ群:250325397),摸鱼吹牛嗨起来&#xff0…

睿尔曼超轻量仿人机械臂之在ROS里引用正逆解函数库

一、机械臂运动学正逆解说明 机械臂运动学就是根据未端执行器与所选参考坐标系之间的几何关系,确定末端执行器的空间位置和姿态与各关节变量之间的数学关系。包括正运动学 (Forward Kinematics)和逆运动学 (Inverse Kinematics)两部分。 机械臂运动分为关节空间运…

访问网站时IP被阻止?解决方法

相信许多人都曾遭遇过IP禁令的困扰:比如在尝试访问社交媒体、搜索引擎或电子商务网站时,突然发现自己被限制了访问权限;又或是自己的账号在毫无预兆的情况下被封禁。这些网络上的种种限制使得IP被封成为了一个常见的问题,让我们无…

Unity 中画线

前言: 在Unity项目中,调试和可视化是开发过程中不可或缺的部分。其中,绘制线条是一种常见的手段,可以用于在Scene场景和Game视图中进行调试和展示。本篇博客将为你介绍多种不同的绘制线条方法,帮助你轻松应对各种调试…

Csharp_pta2

C#实验1-2 7-1 C# 1.6 求孪生素数 编写控制台应用程序,查找一个用户输入的正整数区间中的孪生素数(孪生素数就是指相差2的素数对)。 输入格式: 用户在一行中输入两个正整数,中间用一个空格间隔。 输出格式: 如果第二个数小于…