[数据挖掘] 数据分析的八种方法

一、说明

同类型的数据分析包括描述性、诊断性、探索性、推理性、预测性、因果性、机械性和规范性。以下是您需要了解的有关每个的信息。本文对于前人归纳的8种进行叙述。

二、数据分析有哪些不同类型?

2.1 分析目的不同

        基本存在8个方面:数据分析可以分离并组织成类型,按复杂性递增的顺序排列。

  1. 描述性分析
  2. 诊断分析
  3. 探索性分析
  4. 推理分析
  5. 预测分析
  6. 因果分析
  7. 机理分析
  8. 规范性分析

        凭借其多方面,方法和技术,数据分析用于各个领域,包括商业,科学和社会科学等。随着企业在数据分析技术进步的影响下蓬勃发展,数据分析在决策中发挥着巨大作用,提供了一个更好、更快、更有效的系统,可以最大限度地降低风险并减少人为偏见。

        也就是说,有不同类型的数据分析迎合不同的目标。我们将在下面逐一检查。

 2.2 分析手段不同

          数据分析可以分为两个阵营,根据《数据科学的R》一书:

  1. 假设生成 — 这涉及深入研究数据并结合您的领域知识来生成有关数据为何如此行为的假设
  2. 假设确认 — 这涉及使用精确的数学模型生成具有统计复杂性的可证伪预测,以确认您之前的假设。

三、8个经典数据分析法

3.1. 描述性分析

        描述性分析的目标是描述或总结一组数据。以下是您需要了解的内容:

  • 描述性分析是在数据分析过程中执行的第一个分析。
  • 它生成有关样品和测量的简单摘要。
  • 它涉及常见的描述性统计数据,如集中趋势、变异性、频率和位置的度量。

        描述性分析示例

        以谷歌上的 Covid-19 统计页面为例。折线图是病例/死亡的纯粹摘要,是受病毒感染的特定国家人口的呈现和描述。

        描述性分析是分析的第一步,您可以使用描述性统计量汇总和描述您拥有的数据,结果是数据的简单表示。

        有关数据分析的更多信息:数据分析师与数据科学家:解释异同

 

3.2. 诊断分析

        诊断分析试图通过更深入地查看数据来发现微妙的模式来回答“为什么会发生这种情况?”这个问题。以下是您需要了解的内容:

  • 诊断分析通常在描述性分析之后进行,获取初步结果并调查数据中某些模式发生的原因。
  • 诊断分析可能涉及分析其他相关数据源(包括过去的数据),以揭示对当前数据趋势的更多见解。
  • 诊断分析非常适合进一步探索数据中的模式以解释异常。

        诊断分析示例

        某鞋类商店想要查看其过去 12 个月的网站流量水平。在汇编和评估数据后,该公司的营销团队发现 <> 月份的流量高于平均水平,而 <> 月和 <> 月的流量水平略低。

        为了找出发生这种差异的原因,营销团队进行了更深入的研究。团队成员分解数据以专注于特定类别的鞋类。在 6 月份,他们发现以凉鞋和其他海滩相关鞋类为特色的页面获得了大量浏览量,而这些数字在 7 月和 8 月有所下降。

        营销人员还可以查看其他因素,如季节性变化和公司销售事件,看看其他变量是否促成了这一趋势。

 

3.3. 探索性分析

        探索性分析涉及检查或探索数据以及查找以前未知的变量之间的关系。以下是您需要了解的内容:

  • EDA 可帮助您发现数据中度量值之间的关系,这些关系不是相关性存在的证据,如短语“相关性并不意味着因果关系”所示。
  • 它对于发现新的联系和形成假设很有用。它推动了设计规划和数据收集。

        探索性分析示例

        全球气温多年来逐渐上升,气候变化是一个越来越重要的话题。关于气候变化的探索性数据分析的一个例子涉及从1950年到2020年的气温上升以及人类活动和工业化的增加,以从数据中找到关系。例如,您可以增加工厂、道路上的汽车和飞机飞行的数量,以了解这与温度升高的关系。

探索性分析探索数据以查找度量之间的关系,而无需确定原因。它在制定假设时最有用。

 

3.4. 推论分析

推理分析涉及使用少量数据样本来推断有关较大数据群的信息。

统计建模本身的目标就是使用少量信息将信息外推和推广到更大的群体。以下是您需要了解的内容:

  • 推论分析涉及使用代表总体的估计数据,并为您的估计提供不确定性或标准偏差的度量。
  • 推理的准确性在很大程度上取决于您的抽样方案。如果样本不能代表总体,则泛化将不准确。这被称为中心极限定理。

        推理分析示例

        用较小的样本量对整个总体进行推断的想法是直观的。您在媒体和互联网上看到的许多统计数据都是推论性的;基于小样本的事件预测。例如,一项关于睡眠益处的心理学研究可能总共有500人参与。当他们跟进候选人时,候选人报告说,在七到九小时的睡眠中,他们的整体注意力跨度和幸福感更好,而那些睡眠较少和睡眠时间超过给定范围的候选人则注意力持续时间和精力减少。这项来自500人的研究只是世界上7亿人的一小部分,因此是对更大人口的推断。

        推论分析用较小的样本推断和概括较大群体的信息,以生成分析和预测。

 

3.5. 预测分析

        预测分析涉及使用历史或当前数据来查找模式并对未来进行预测。以下是您需要了解的内容:

  • 预测的准确性取决于输入变量。
  • 准确性还取决于模型的类型。线性模型在某些情况下可能运行良好,而在其他情况下则可能不行。
  • 使用一个变量来预测另一个变量并不表示因果关系。

        预测分析示例

        2020年美国大选是一个热门话题,许多预测模型都是为了预测获胜的候选人而建立的。FiveThirtyEight这样做是为了预测2016年和2020年的选举。选举的预测分析需要输入变量,例如历史民意调查数据、趋势和当前民意调查数据,以便返回良好的预测。像选举这样大的事情不仅仅是使用线性模型,而是使用具有某些调整以最好地达到其目的的复杂模型。

        预测分析从过去和现在获取数据来预测未来。

        有关数据的更多信息:解释正态分布的经验

 

3.6. 因果分析

因果分析着眼于变量之间关系的原因和影响,并侧重于找到相关性的原因。以下是您需要了解的内容:

  • 要找到原因,您必须质疑观察到的驱动结论的相关性是否有效。仅仅查看表面数据并不能帮助你发现相关性背后的隐藏机制。
  • 因果分析应用于专注于确定因果关系的随机研究。
  • 因果分析是数据分析和科学研究的黄金标准,其中现象的原因被提取和挑出来,就像将小麦与谷壳分开一样。
  • 好的数据很难找到,需要昂贵的研究和研究。这些研究是汇总分析的(多组),观察到的关系只是整个人群的平均效应(平均值)。这意味着结果可能不适用于所有人。

        因果分析示例 

        假设你想测试一种新药是否能提高人类的力量和注意力。为此,您需要对药物进行随机对照试验以测试其效果。您将新药的候选样本与接受模拟对照药物的候选药物进行比较,通过一些侧重于强度和整体注意力的测试。这将使您能够观察药物如何影响结果。

        因果分析是关于找出变量之间的因果关系,并检查一个变量的变化如何影响另一个变量。

 

3.7. 机理分析

        机理分析用于了解导致其他变量其他变化的变量的确切变化。以下是您需要了解的内容:

  • 它应用于物理或工程科学,需要高精度和误差余地小的情况,只有数据中的噪声是测量误差。
  • 它旨在了解生物学或行为过程,疾病的病理生理学或干预的作用机制。

        机理分析示例

        许多研究生水平的研究和复杂的主题都是合适的例子,但简单来说,假设进行了一项实验来模拟安全有效的核聚变,为世界提供动力。对研究的机理分析将需要控制和操纵变量的精确平衡,同时对变量和预期结果进行高度准确的测量。正是这种对这些重大话题的复杂而细致的工作方式,才允许科学突破和社会进步。

        机理分析在某些方面是一种预测分析,但经过修改以解决需要高精度和细致的物理或工程科学方法的研究

 

3.8. 规范性分析

规范性分析从其他以前的数据分析中汇编见解,并确定团队或公司可以采取的行动,为预测趋势做好准备。以下是您需要了解的内容:

  • 规范性分析可能紧随预测分析之后,但它可能涉及结合许多不同的数据分析。
  • 公司需要先进的技术和大量资源来进行规范性分析。处理数据和调整自动化任务的人工智能系统是执行规范性分析所需技术的一个例子。

        规范性分析示例

        规范性分析在日常生活中无处不在,推动了用户在社交媒体上消费的精选内容。在TikTok和Instagram等平台上,算法可以应用规范性分析来审查用户过去参与的内容以及他们在特定帖子中表现出的行为类型。基于这些因素,算法会寻找可能引起相同响应的类似内容,并在用户的个人提要上推荐它。 

四、何时使用不同类型的数据分析

  • 描述性分析总结手头的数据,并以易于理解的方式呈现您的数据。
  • 诊断分析更详细地查看数据以揭示某些模式发生的原因,使其成为解释异常的好方法。
  • 探索性数据分析可帮助您发现数据中变量之间的相关性和关系。
  • 推论分析用于使用较小的数据样本量概括较大的总体。
  • 预测分析可帮助您利用数据对未来进行预测
  • 因果分析强调找到变量之间相关性的原因。
  • 机理分析用于测量导致其他变量其他变化的变量的确切变化。
  • 规范性分析结合了来自不同数据分析的见解,以制定团队和公司可以采取的行动方案,以利用预测结果。

关于数据分析,要记住的一些重要提示包括:

  • 相关性并不意味着因果关系。
  • EDA 有助于发现新的联系并形成假设。
  • 推理的准确性取决于抽样方案。
  • 一个好的预测取决于正确的输入变量。
  • 具有足够数据的简单线性模型通常可以解决问题。
  • 使用变量预测另一个变量并不表示因果关系。
  • 好的数据很难找到,而产生它需要昂贵的研究。
  • 研究结果是汇总的,是平均效应,可能不适用于每个人。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/450.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Vue3】setup参数细讲!computed计算属性和watch监听属性

setup参数细讲&#xff01;computed计算属性和watch监听属性 setup细讲!setup参数&#xff0c;steup&#xff08;props&#xff0c;context&#xff09;参数1.props&#xff0c;负责接收父组件传过来的值参数2.contextcontext.attrscontext.emitcontext.slots&#xff0c; 插槽…

.Net Core Restful Api 版本区分第一种

前言&#xff1a;在我们进行Web Api开发时&#xff0c;版本的区分&#xff0c;是必须要考虑的&#xff0c;涉及到我们的版本发布&#xff0c;切换等&#xff0c;如何从旧版本无缝的切换到新版本&#xff1f; 下面&#xff0c;我们通过使用[ApiVersion]特性&#xff0c;实现两个…

Spring MVC 系列1 -- 初识Spring MVC

目录 1. 什么是 Spring MVC&#xff1f; 2. MVC定义 3. 创建SpringMVC项目 ​4. Spring MVC要学习哪些? 1. 什么是 Spring MVC&#xff1f; 官⽅对于 Spring MVC 的描述是这样的&#xff1a; 翻译成中文 从上述定义我们可以得出两个关键信息&#xff1a; 1. Spring MVC 是…

conda疑难杂症

annaconda、miniconda和conda的关系 conda官网 https://docs.conda.io/projects/conda/en/latest/ 下载安装Anaconda: https://www.anaconda.com/products/distribution#Downloads 下载安装Miniconda&#xff1a;https://docs.conda.io/en/latest/miniconda.html 安装 安装…

7月6日华为云盘古气象大模型登上《Nature》杂志:相比传统数值预报快10000倍

7月6日&#xff0c;国际顶级学术期刊《自然》&#xff08;Nature&#xff09;杂志正刊发表了华为云盘古大模型研发团队的最新研究成果——《三维神经网络用于精准中期全球天气预报》&#xff08;《Accurate medium-range global weather forecasting with 3D neural networks》…

C/C++实现高并发http服务器

http高并发服务器实现 基础知识 html&#xff0c;全称为html markup language&#xff0c;超文本标记语言。 http&#xff0c;全称hyper text transfer protocol&#xff0c;超文本传输协议。用于从万维网&#xff08;WWW&#xff1a;World Wide Web&#xff09;服务器传输超…

win10远程桌面控制Ubuntu服务器 - 内网穿透实现公网远程

文章目录 前言视频教程1. ubuntu安装XRDP2.局域网测试连接3. Ubuntu安装cpolar内网穿透4.cpolar公网地址测试访问5.固定域名公网地址 转载自cpolar极点云文章&#xff1a;树莓派使用Nginx 搭建轻量级网站远程访问 前言 XRDP是一种开源工具&#xff0c;它允许用户通过Windows R…

吴恩达机器学习2022-Jupyter-用scikitlearn实现逻辑回归

1.1目标 使用 scikit-learn 培训 Logit模型模型。 1.2数据集 import numpy as npX np.array([[0.5, 1.5], [1,1], [1.5, 0.5], [3, 0.5], [2, 2], [1, 2.5]]) y np.array([0, 0, 0, 1, 1, 1]) 1.3Fit模型 下面的代码导入了 scikit-learn 的 Logit模型模型。您可以通过调…

F#奇妙游(13):代码风格

F# 代码风格 这玩意有两点不能忘记&#xff0c;第一点这是很高级的内容&#xff0c;不要相信那些要求你一开始学习F#就要这样就要那样&#xff1b;第二点&#xff0c;这些内容根据不同的项目和不同的组织时时长变动的&#xff0c;并没有什么一定要遵循的准则。基于这两点认知&…

在centos7系统源码安装nginx+mysql+php+go

以下安装说明仅供参考&#xff0c;请根据实际情况修改配置&#xff0c;进行软件编译安装 软件安装也可以参考阿里云的"建站教程"&#xff1a; 云服务器ECS自助建站的流程_云服务器 ECS-阿里云帮助中心 ssl证书配置参考&#xff1a; SSL 证书 Nginx 服务器 SSL 证书安…

Android S 修改关于手机的logo

1.让图片加载生效 frameworks/base/packages/SettingsLib/LayoutPreference/res/layout/preference_about_phone.xml <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android" android:id"id/entity_header" style"…

【已解决】Flask项目报错TypeError: tuple indices must be integers or slices, not str

文章目录 问题情境报错及分析报错代码分析 解决方案必要的解决方法可能有用的解决方法 问题情境 本解决方案适用情境&#xff1a;在本地可以正常运行的flask项目&#xff0c;放到云服务器报错TypeError: tuple indices must be integers or slices, not str&#xff0c;即代码…

使用华为scanplus崩溃的问题

今天接手了一个新的项目&#xff0c;这个项目使用的二维码扫描不是zXin的是一个以前没接触过的华为的scanplus&#xff0c;但是该功能一打开就崩溃了看了下错误日志没有具体的信息&#xff0c;推测是底层崩了&#xff0c;后来在日志中发现了这样的日志 java.lang.SecurityExcep…

Tomcat之配置文件详解

Tomcat 目录 安装好 Tomcat 后&#xff0c;打开它的文件夹&#xff0c;可以看到以下目录 bin:存放各种启动、关闭和其它程序的脚本 conf:配置文件及相关数据文件存放的目录 lib:Tomcat 使用的库文件存放的目录&#xff0c;如存放 Servlet 规范的 API logs:默认日志文件存放…

《生活教育》期刊简介及投稿邮箱

《生活教育》期刊简介及投稿邮箱 《生活教育》杂志创办于1934&#xff0c;是中华人民共和国教育部主管的国家重点学术期刊&#xff0c;国家级期刊&#xff0c;中国知网全文收录G4期刊&#xff0c;它的理论是陶行知教育思想的主线和重要基石&#xff0c;陶行知的教育理论&#…

基于单片机的老人防摔倒的设计与实现

功能介绍 以51单片机作为主控系统&#xff1b;通过LCD1602液晶显示屏显示当前的经纬度及时间的信息&#xff1b;温度传感器采集当前体温&#xff1b;通过GPS接收模块获得当前位置的位置的经度、纬度、时间和高度等信息&#xff1b;通过ADXL345检测老人摔倒的一瞬间重力加速度通…

面试题更新之-vue2x监听方面有什么缺点?所以才有了vue3.0

文章目录 vue2x监听vue3.0监听vue2x监听方面有什么缺点&#xff1f;所以才有了vue3.0 vue2x监听 在Vue.js 2.x中&#xff0c;你可以通过监听属性来响应数据的变化。以下是几种常见的监听方式&#xff1a; 监听计算属性&#xff1a;你可以使用computed属性来创建一个计算属性&…

排序算法第二辑——选择排序

一&#xff0c;选择排序 选择排序算是简单排序中的渣渣&#xff0c;这种算法基本上是没有什么用处的。但是作为一个初学者&#xff0c;我又必须要会写这种算法。这种算法的实现实现思想和它的名字一样&#xff0c;就是在一个范围内选择最大或者最小的数据然后再交换数据实现排序…

Maynor的博客专家成长之路——暨2023年中复盘

文章目录 博客专家成长之路——暨2023年中复盘前言念念不忘的博客专家每天只做三件事敲代码写博客健健身 我的感悟 不足之处未来&#xff1a;和CSDN共同成长最后 博客专家成长之路——暨2023年中复盘 前言 ​ 2023年不知不觉已经过去了半年有余&#xff0c;也是时候作年中复盘…

10.25UEC++/小试牛刀(笨鸟先飞案例)

1.思路整理&#xff1a; 如何入手&#xff1f; 角色可能是每个游戏的最重要的部分&#xff0c;所以一般可以先从角色入手&#xff0c;如果游戏很复杂&#xff0c;可以进行拆分设计。 蓝图创建地图&#xff1a; 创建默认Pawn&#xff1a; 编写GameMode默认构造函数&#xff1a;…