数据分析之统计学基础

数据分析是现代企业和科研中不可或缺的一部分,而统计学是数据分析的基石。在本篇博客中,我们将介绍统计学的基础知识,涵盖数据类型、描述性统计(集中趋势、离散程度和偏差程度),并通过代码实例加以说明。

一、数据三大类型

在统计分析中,数据通常分为三大类型:分类数据、顺序数据和数值数据。

1. 分类数据

分类数据是指那些可以分为不同类别的数据,但这些类别之间没有内在顺序。例如:性别(男、女)、颜色(红、绿、蓝)。

2. 顺序数据

顺序数据是指可以排序的数据,但不同类别之间的差异不能被量化。例如:评级(好、中、差),满意度(非常满意、满意、不满意)。

3. 数值数据

数值数据是指可以量化并具有明确意义的数字数据。这类数据可以进一步分为离散数据(如人口数量)和连续数据(如身高、体重)。

二、描述性统计 - 集中趋势

描述性统计的集中趋势指标主要包括:众数、中位数、平均数和分位数。

1. 众数

使用场景:数据量大,识别最常见的类别。

常用数据类型:分类数据

import numpy as np
from scipy import statsdata = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5]
mode = stats.mode(data)
print(f"众数: {mode.mode[0]}, 频数: {mode.count[0]}")

优点:简单直观,易于理解。缺点:在多众数情况下可能不适用。

2. 中位数

使用场景:集中趋势分析

常用数据类型:顺序数据、数值数据

median = np.median(data)
print(f"中位数: {median}")

优点:不受极端值影响。缺点:不能利用所有数据。

3. 平均数

分类:简单平均数、加权平均数

使用场景:数据的均衡点

常用数据类型:数值数据

mean = np.mean(data)
print(f"平均数: {mean}")

优点:利用所有数据,计算简单。缺点:受极端值影响大。

4. 分位数

使用场景:反映数据的集中趋势

常用数据类型:数值数据

q1 = np.percentile(data, 25)
q3 = np.percentile(data, 75)
print(f"第一四分位数: {q1}, 第三四分位数: {q3}")

优点:提供数据分布信息。缺点:计算复杂。

三、描述性统计 - 离散程度

描述性统计的离散程度指标主要包括:异众比率、四分位差、极差、标准差和变异系数。

1. 异众比率

使用场景:衡量众数代表性

常用数据类型:分类数据

def heterogeneity_ratio(data):mode_count = stats.mode(data).count[0]total_count = len(data)return 1 - (mode_count / total_count)hr = heterogeneity_ratio(data)
print(f"异众比率: {hr}")

优点:简单直观。缺点:仅适用于分类数据。

2. 四分位差

使用场景:反映中间50%的数据离散程度

常用数据类型:数值数据

iqr = q3 - q1
print(f"四分位差: {iqr}")

优点:不受极端值影响。缺点:只考虑中间部分数据。

3. 极差

使用场景:反映数据范围

常用数据类型:数值数据

range_ = np.ptp(data)
print(f"极差: {range_}")

优点:计算简单。缺点:受极端值影响大。

4. 标准差

使用场景:数据离散程度

常用数据类型:数值数据

std_dev = np.std(data)
print(f"标准差: {std_dev}")

优点:利用所有数据。缺点:受极端值影响。

5. 变异系数

使用场景:数据变异程度

常用数据类型:数值数据

cv = std_dev / mean
print(f"变异系数: {cv}")

优点:标准化的离散程度指标。缺点:对于均值接近于零的数据不适用。

四、描述性统计 - 偏差程度

1. Z 分数

使用场景:统一量级,增加可比性

常用数据类型:数值数据

z_scores = stats.zscore(data)
print(f"z-scores: {z_scores}")

优点:标准化数据。缺点:需要计算均值和标准差。

2. 协方差和相关系数

使用场景:衡量两个变量的关系

常用数据类型:数值数据

x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]# 协方差
covariance = np.cov(x, y)[0, 1]
print(f"协方差: {covariance}")# 相关系数
correlation = np.corrcoef(x, y)[0, 1]
print(f"相关系数: {correlation}")

优点:揭示变量间关系。缺点:仅适用于线性关系。

总结:通过理解和应用上述统计学基础知识,可以帮助我们更好地分析和解释数据,提高数据分析的准确性和科学性。希望本篇博客对你有所帮助!

(交个朋友/找资源/ai办公/技术接单,注明来意)

61353774f66242828147d0210ee69159.jpg

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/18331.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

redis数据类型之string,list

华子目录 key操作说明SCAN cursor [MATCH pattern] [COUNT count]dump与restorekeys 通配符 示例演示 string说明setbit key offset valuegetbit key offsetsetrange key offset value List结构图相关命令lrem key count valueltrim key count value示例:使用 LTRIM…

Octo:伯克利开源机器人开发框架

【摘要】在各种机器人数据集上预先训练的大型策略有可能改变机器人学习:这种通用机器人策略无需从头开始训练新策略,只需使用少量领域内数据即可进行微调,但具有广泛的泛化能力。然而,为了广泛应用于各种机器人学习场景、环境和任…

IC618 虚拟机 EDA Calibre2019 Hspice2018 Spectre19.1

虚拟机包含 CentOS 7.9 Cadence IC618 Calibre 2019 Hspice 2018 Spectre19.1 下载地址: 链接:https://pan.baidu.com/s/1aMtPO2G5ad-x5BtIJjCDig?pwdxcii 提取码:xcii

闹掰了? 传Google Pixel 10芯片转单了 | 百能云芯

根据最新消息,Google Tensor G5处理器可能将选择台积电作为其新的生产伙伴,并计划在2025年的Pixel 10系列手机上亮相。这一消息由Android Authority率先报道,引起了业界的广泛关注。 据悉,自从2021年Google推出自研的Tensor处理器…

儿童礼物笔记

文章目录 女孩礼物毛绒玩具音乐水晶系列水彩笔 男孩礼物益智类玩具积木类泡沫类机动玩具类 小孩过生日或儿童节,选礼物想破脑袋,做个笔记吧。 如果自家的小孩,还好说些,送亲友就需要动动脑筋。 女孩礼物 毛绒玩具 不错的选择&a…

前端Ajax、Axios和Fetch的用法和区别笔记

前端 JavaScript 开发中,进行 HTTP 请求的三种主要方式是 Ajax、Axios 和 Fetch。这三种方式各有优缺点,并且适用于不同的场景。在合适的业务场景下使用,以下是它们的区别和使用举例。 1. Ajax Ajax(Asynchronous JavaScript an…

Flutter 中的 FractionalTranslation 小部件:全面指南

Flutter 中的 FractionalTranslation 小部件:全面指南 在 Flutter 的丰富布局库中,FractionalTranslation 是一个允许你将子组件沿着一个轴或两个轴进行部分平移的动画小部件。这种类型的平移通常用于创建滑动效果,如卡片的滑动删除或滑动展…

14.微信小程序之地理定位功能

目录 1.地理定位介绍 1.1 申请开通 1.2 使用方法 2.拒绝授权后的解决方案 3.开通腾讯位置服务 4.LBS 逆地址解析 1.地理定位介绍 小程序地理定位是指通过小程序开发平台提供的 API,来获取用户的地理位置信息。用户在使用小程序时,可以授权小程序获…

【前端常见面试题整理】

开放性的题目 自我介绍 突出学习能力 我想换工作的主要原因是 介绍项目 平时是如何学习前端开发的 主要就是两个途径,一个是查阅官方文档,然后就是在网上查找技术资料或者视频去学习。平时没事的时候也会看看github,同时关注一些社区和IT网…

医疗小程序源码SpringBoot2.X + Vue + UniAPP全栈开发

源码说明: 看到好多坛友都在求SpringBoot2.X Vue UniAPP,全栈开发医疗小程序 – 带源码课件,我看了一下,要么链接过期,要么课件有压缩密码。 特意整理了一份分享给大家,个人认为还是比较全面的。 希望…

【数据结构】-- 栈

栈 引入: 一种特殊的线性表,其只允许在固定的一端进行插入和删除元素操作。 进行数据插入和删除操作的一端 称为栈顶,另一端称为栈底。栈中的元素遵循先进后出的原则,先入栈的元素总是先后出栈。 压栈:栈的插入操作叫…

04--SpringBoot热部署与日志

1、热部署 1.1 引言 为了进一步提高开发效率,SpringBoot为我们提供了全部项目热部署,日后在开发过程中修改了部分代码或者相关配置文件之后,不需要再重启服务使其生效。在项目中开启了全局热部署之后,只需要在修改之后等待几秒钟…

Python内置数据类型详解:从基础到进阶

Python内置数据类型详解:从基础到进阶 在Python编程中,数据类型是构建程序的基础。Python提供了多种内置数据类型,用于存储不同类型的数据。这些数据类型不仅易于使用,而且功能强大,能够满足各种编程需求。本文将详细介绍Python中的内置数据类型,包括它们的特点、用法以…

ARM GIC 和NVIC的区别

ARM GIC(Generic Interrupt Controller)和NVIC(Nested Vectored Interrupt Controller)是两种不同的中断控制器,它们在ARM架构中扮演着重要的角色,但各自有不同的设计和应用场景。 ARM GIC: G…

广东省保健食品行业协会批复成为“世界酒中国菜”活动指导单位

广东省保健食品行业协会正式批复成为“世界酒中国菜”系列活动指导单位,共促餐饮文化交流发展 近日,广东省保健食品行业协会正式批复荐酒师国际认证(广州)有限公司,成为备受瞩目的“世界酒中国菜”系列活动的指导单位…

a+bi vs a+bj, Mathematics vs. Engineering.

In Python (and many other programming languages), the use of “j” instead of “i” for representing the imaginary unit in complex numbers is a convention borrowed from electrical engineering and physics. Let me explain why: Historical Context: The use of …

填补领域空白!TerDiT:首次探索大规模DiT模型量化问题(MMLab出品)

论文链接:https://arxiv.org/pdf/2405.14854 项目链接:https://github.com/Lucky-Lance/TerDiT 最近在大规模预训练的文本到图像扩散模型方面的发展显著提高了高保真图像的生成能力,特别是基于transformer架构的扩散模型(DiTs&a…

奈飞CEO最新访谈:抢走你饭碗的不是AI,而是能熟练使用AI的人

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识…

新书推荐:7.5 goto、break、continue语句

本节必须掌握的知识点: 示例二十六 代码分析 汇编解析 示例二十七 代码分析 汇编解析 7.5.1 示例二十六 ■goto语句:无条件转移语句。 语法格式: goto label; label : 代码; ●语法解析: 执行到goto语句时,则无…

算法提高之64位整数乘法

算法提高之64位整数乘法 核心思想&#xff1a;位运算 和快速幂相似 预处理1*a 2*a 4*a …的值 #include <iostream>#include <cstring>#include <algorithm>using namespace std;typedef long long LL;LL qadd(LL a,LL b,LL p){LL res 0;while(b){if(b &…