技术学习|CDA level I 描述性统计分析(统计学概述)

统计学是一门收集、处理、分析、解释数据,并从中得出结论的科学。

研究思路:收集数据——>处理数据——>分析数据——>解释数据

  • 收集数据是数据分析的前提,传统的数据收集方法包括两个来源:直接来源和间接来源,这里的直接和间接强调的是数据是否一手收集,一手收集的数据称为直接来源的数据,二手收集的数据称为间接来源的数据。故直接来源的数据也称一手数据,间接来源的数据也称二手数据。数据的直接来源常有调查和实验两种方式(调查在社会科学中应用较多,实验在自然科学中应用较多;调查强调的是不对数据对象进行干扰,任其自然发展,收集发展过程中的数据,实验强调的是有目的地对数据对象进行因素干扰,从而验证这些因素对数据对象是否产生影响,以及产生何种影响)。

  • 数据处理环节包括将收集的数据进行数据编码、数据库搭建、数据录入、数据审核(包括数据的完整性、准确性、实效性、适用性等),进而按照研究问题的需要进行数据筛选、数据分组、数据分割、数据合并、数据变形、数据转换等,并进行一些数据质量评估、数据特征分析、数据可视化分析等探索性分析)

  • 分析数据是数据分析师的核心工作。统计学的数据分析方法分为基础的数据分析方法和复杂的数据分析方法。

    • 基础的数据分析方法

      • 描述性统计分析方法:结合数据,对实际问题进行分布特征的描述,也称数据分布特征的描述性分析方法。

      • 推断性统计分析方法:根据掌握的样本数据对总体进行评估或检验,侧重于总体特征的估计或检验推断,即包括参数估计、假设检验两种主要方法。参数估计指的是当总体信息未知时,需要抽取样本来估计总体信息;假设检验指的是知晓总体某个信息,但无法确认信息是否正确,因此需要抽取样本对信息进行假设检验。

    • 复杂的数据分析方法:以基本的数据分析方法为基础,长结合某类具体问题、某类特殊数据、某类特定对象等,融合描述性统计分析方法、推断性统计分析方法而得到的复杂的统计分析方法。(如,相关分析是为了解决不同变量之间相关关系问题,融合了相关关系的描述、相关系数的估计和检验而得到的复杂的统计分析方法;时间序列分析是针对时间序列数据这类特殊数据,融合了时间序列的描述性分析、时间序列模型估计和检验、预测等推断性统计方法而得到的复杂的统计分析方法;生存分析是针对医学、生物、产品等有生存时间长短问题的特定对象,融合了生存率描述、估计,以及生存模型的检验和预测等方法而得到的复杂的统计分析方法。

  • 解释数据是统计学的最后环节,是连接分析数据与解决实际问题的重要桥梁,根据数据分析方法,对分析结果进行解释,从而解决实际问题。不同的数据分析方法有不同的解释角度,(如相关分析是解决变量间的重要方法,故在解释时应围绕变量间的关系是否存在及程度强弱来解释;主成分分析解决变量间存在高度重复信息、变量需要综合成无关主成分的问题,故在解释时应围绕变量如何综合成无关主成分、各主成分与各变量的具体关系等角度来解释)。

二、统计学的基本概念

总体:指我们所研究的所有元素的集合,其中每个元素称为个体。

样本:从总体中抽取的一部分个体的集合。样本中个体的数量称为样本容量。

并不是所有研究必须要有样本,需要抽取样本来推断总体的前提是总体的个体很难一个个地研究。

大数据的研究仍然需要抽取样本。一方面,因为大数据在某种意义上仍然只是样本数据,不是总体数据,实际中很多数据并未记录到大数据中,即这些大数据并不能完全代表我们研究的总体;另一方面,即便我们把总体限定在已有数据的所有个体范围内,在实际计算中,如果每次计算都应用数据量巨大的大数据,对数据系统和计算机计算能力都是非常大的考验,会带来计算效率低下的问题。

参数是指总体的某个特征,而统计量是指样本的某个特征。参数和统计量两个概念分别对应总体和样本。(说到参数均是指总体的,说到统计量均是指样本的,即总体没有统计量,而样本没有参数。)

常见的特征有比例、均值、方差(标准差)3个,这3个特征是数据的重要特征,也是能反映数据主要信息的特征。与此同时,还有一些次要的特征,如个体数量(容量)、彼岸准差系数等。

因样本的目的是推断总体,故总体有总体比例、总体均值、总体方差(标准差)、总体容量等特征,与之对应的是,样本有样本比例、样本均值、样本方差(标准差)、样本容量等特征。

总体参数符号样本统计量符号
总体比例π样本比例p
总体均值μ样本均值
总体方差(标准差)σ2(σ)样本方差(标准差)s2(s)
总体容量N样本容量n

变量::用来描述个体特征的概念。不同的变量有不同的取值,其取值我们称为数据,数据是统计学研究的对象,也是数据分析师工作的对象。

数据分类:

  • 数据按照表达形式来划分,可以分为定性数据和定量数据。定性数据是刻画个体性质的数据。定性数据从形式上来看,常表现为文字形式,而用数字来表现的数据则称为定量数据。

    • 在实际应用中,定性数据分为两种情况:分类数据和顺序数据。分类数据只是事物分类的结果,而顺序数据则是可以排序的分类结果(高中低)。

    • 定量数据根据数据中"0"是否表示没有"没有",分为定距数据和定比数据。定距数据的0不表示没有,而定比数据的0表示没有。常用的定距数据如温度、年份;常用的定比数据如收入。

    • 常将分类数据称为最低级,顺序数据级别稍高,数值数据是最高级数据。低级数据的方法,高级数据可以用;但高级数据的方法,低级数据不可以用(与数据转换有关系)。

  • 数据按照收集方式划分,可分为调查数据和实验数据。调查数据是指通过观察、调查等方式获取得到的数据,在社会科学的研究中使用较多;实验数据是指通过实验方式获取得到的数据,在自然科学的研究中使用较多。区分调查数据和实验数据,常可以通过是否对数据对象进行干预来判断(调查数据是不干预数据对象,只是收集数据对象的状态、过程数据,而实验数据会对数据对象施加一些实验因素,从而观察这些实验因素对实验对象的影响,以判断这些实验因素是否起到作用)。

  • 数据按照与时间的关系不同来划分,可以分为横截面数据、时间序列数据、混合横截面数据和面板数据

    • 时间序列数据是指同一对象在不同时间(通常是一个连续的固有频率的时间序列)上相继观测到的数据(如某超市2001-2020年连续20年的年利润数据)。时间序列数据集由一个或几个变量在不同时间的观测值构成的数据集。

    • 横截面数据是指在相同或相近时间点观测的不同对象的数据(如2020年我国50个重要城市的GDP数据)。横截面数据集指给定时点对个人、家庭、企业、国家或其他单位的一个或多个变量采集的样本所构成的数据集。这里定义的时间点,但应该忽略细小的时间差别。具体判断的原则应为时间上的差别不应该或不足以改变所获取变量的性质。

    • 面板数据是指不同对象在同一序列时间上收集到的数据。对于这类数据,如果把同一个时间的所有数据抽取出来就是一个横截面数据;如果把某个个体不同时间的数据抽取出来就是一个时间序列数据,即可以把这种数据看做是横截面数据和时间序列数据的混合,故也有人称这种数据为混合数据。

    • 混合横截面数据,即有横截面数据的特点也有时间序列数据的特点,但每一时间点的样本不同。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/594644.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LabVIEW在高精度机器人视觉定位系统中的应用

在现代工业自动化中,精确的机器人视觉定位系统对于提高生产效率和产品质量至关重要。LabVIEW软件,以其卓越的图像处理和自动化控制功能,在这一领域发挥着重要作用。本案例将展示LabVIEW如何帮助开发和实现一个高精度的机器人视觉定位系统&…

有什么安全处理方案可以有效防护恶意爬虫

常见的爬虫 有百度爬虫、谷歌爬虫、必应爬虫等搜索引擎类爬虫,此类爬虫经常被企业用于提高站点在搜索引擎内的自然排名,使得站点在各大搜索引擎中的排名能够提高,进一步通过搜索引擎来进行引流为企业增加业务流量。 恶意爬虫与合法、合规的搜…

Web自动化测试框架总结

实施过了web系统的UI自动化,回顾梳理下,想到什么写什么,随时补充。 首先,自动化测试不是手动测试的替代品,是比较好的补充,而且不是占大比重的补充。 70%的测试工作集中在底层接口测试和单元测试&#xff0…

多元统计分析(4):判别分析

4.1 判别分析的目标 主要目的:判别一个个体所属类别 4.2 距离判别 都选用用马氏距离 4.2.1 判别准则 化简的证明: 称为判别函数,为判别系数。 4.2.2 误判概率 【1】当两个正态总体的协方差相同 证明: 当两个正态总体重合的时…

uniapp中组件库丰富的Switch 开关选择器使用方法

目录 #平台差异说明 #基础使用 #加载中 #禁用switch #自定义尺寸 #自定义颜色 #自定义样式 #异步控制 API #Switch Props #Switch Event 选择开关用于在打开和关闭状态之间进行切换。 #平台差异说明 App(vue)App(nvue&#xff0…

学生公寓安全用电管理系统应用案例

摘要:安全用电是学校公寓用电管理的首要任务,这就需要对一些恶性负载进行识别和控制,同时为了减少电工和后期管理人员的成本,引进了安全用电管理系统。本文在在描述了安全用电管理系统的工作原理和利用智能电表可实现的功能后,阐明…

数字信号处理期末复习——基础知识汇总(三)

个人名片: 🦁作者简介:一名喜欢分享和记录学习的在校大学生 🐯个人主页:妄北y 🐧个人QQ:2061314755 🐻个人邮箱:2061314755qq.com 🦉个人WeChat:V…

基于ssm的小儿肺炎知识管理系统设计与实现+vue论文

小儿肺炎知识管理系统设计与实现 摘要 当下,正处于信息化的时代,许多行业顺应时代的变化,结合使用计算机技术向数字化、信息化建设迈进。传统的信息管理模式,采用人工登记的方式保存相关数据,这种以人力为主的管理模式…

单机多进程,每个进程多张卡 mpi nccl 程序设计检验

做了部分注释&#xff0c;比较乱 本示例结构&#xff1a; 1&#xff0c;源代码 #include <stdlib.h> #include <stdio.h> #include "cuda_runtime.h" #include "nccl.h" #include "mpi.h" #include <unistd.h> #include <…

网络安全—模拟IP代理隐藏身份

文章目录 网络拓扑安装使用代理服务器设置隐藏者设置 使用古老的ccproxy实现代理服务器&#xff0c;仅做实验用途&#xff0c;禁止做违法犯罪的事情&#xff0c;后果自负。 网络拓扑 均使用Windows Server 2003系统 Router 外网IP&#xff1a;使用NAT模式 IP DHCP自动分配或者…

【单调栈】739.每日温度

题目 法1&#xff1a;典型单调栈问题 class Solution {public int[] dailyTemperatures(int[] temperatures) {int n temperatures.length;int[] res new int[n];Stack<Integer> stack new Stack<>();for (int i n - 1; i > 0; --i) {while (!stack.isEmp…

【零基础入门TypeScript】TypeScript - 运算符

目录 ​编辑 什么是操作员&#xff1f; 算术运算符 关系运算符 逻辑运算符 按位运算符 赋值运算符 杂项运算符 否定运算符 (-) 字符串运算符&#xff1a;连接运算符 () 条件运算符 (?) 类型运算符 类型运算符 实例化 什么是操作员&#xff1f; 运算符定义将对数…

【Echarts实践案例】如何在线图上标记一个非轴线上的点

需求背景&#xff1a; 当前有一个趋势图&#xff0c;横坐标表示灯泡平均使用时长&#xff0c;纵坐标表示灯泡平均使用温度。现在需要在当前坐标系下标记一个正在使用中的灯泡的时长及温度&#xff08;趋势图表示的是计算出的平均温度&#xff0c;所以当前灯泡的温度可能不会在…

HCIA-Datacom题库(自己整理分类的)_02_网络设备基础多选【14道题】

注&#xff1a;红色题目是答案有争议。 1.以下哪些MAC地址不能作为主机网卡的MAC地址&#xff1f; 00-02-03-04-05-06 02-03-04-05-06-07 01-02-03-04-05-06 03-04-05-06-07-08 解析&#xff1a;MAC地址的第二位必须是偶数。 2.堆叠&#xff0c;集群技术有以下哪些优势&…

聚醚胺市场分析:预计到2025年将达到10亿美元

聚醚胺是一种有机化合物&#xff0c;在涂料、胶粘剂、树脂等多种行业中用作固化剂、缓蚀剂和燃料添加剂。由于对广泛用于建筑和汽车行业的聚脲涂料的需求不断增加&#xff0c;全球聚醚胺市场一直在经历显着增长。 全球市场分析&#xff1a; 2020 年全球聚醚胺市场价值为 6.2 亿…

Python中的数据分析和数据处理

随着大数据时代的到来&#xff0c;数据分析和处理变得越来越重要。Python作为一种功能强大的编程语言&#xff0c;广泛应用于数据分析和处理领域。本文将介绍Python中数据分析和处理的相关概念、常用库和工具&#xff0c;以及一些实际应用案例。 一、Python在数据分析和处理中…

python django 个人记账管理系统

python django 个人记账管理系统。 功能&#xff1a;登录&#xff0c;新用户注册&#xff0c;个人信息修改&#xff0c;收入&#xff0c;支出记录&#xff0c;收入记账管理&#xff0c;支出记账管理&#xff0c;收入&#xff0c;支出统计 技术&#xff1a;python django&…

分布式(5)

目录 22.什么是Paxos算法&#xff1f;如何实现&#xff1f; 24.全局唯一ID有哪些实现方案&#xff1f; 25.数据库方式实现方案&#xff1f;有什么缺陷&#xff1f; 22.什么是Paxos算法&#xff1f;如何实现&#xff1f; Paxos算法是Lamport宗师提出的一种基于消息传递的分布…

mysql 通过 binglog 恢复数据

mysql 通过 binglog 恢复数据 测试数据库版本: 8.0.5 查看当前是否开启 进入数据库,查看当前是否开启了 binglog 的相关设置: mysql> show variables like log_bin%; -------------------------------------------------------------- | Variable_name …

pythonPandas三: 数据清洗和预处理

让我们通过几个案例来学习如何使用Pandas进行数据清洗和预处理&#xff0c;包括处理缺失值、异常值&#xff0c;进行数据转换和规范化&#xff0c;以及处理重复数据等操作。 处理缺失值&#xff1a; # 创建包含缺失值的DataFrame data {姓名: [张三, 李四, None, 赵六],年龄: …