【初识扫盲】厚尾分布

厚尾分布(Fat-tailed distribution)是一种概率分布,其尾部比正态分布更“厚”,即尾部的概率密度更大,极端值出现的概率更高。

一、厚尾分布的特征

  1. 尾部概率大

    • 在正态分布中,极端值(如距离均值很远的值)出现的概率非常小。例如,对于一个标准正态分布(均值为0,标准差为1),数据落在距离均值3个标准差之外的概率约为0.27%。然而,在厚尾分布中,这种极端值出现的概率要大得多。以柯西分布(一种典型的厚尾分布)为例,它没有定义方差,其尾部的概率密度衰减速度比正态分布慢很多。在柯西分布中,数据落在距离“中心位置”(类似正态分布的均值)较远区域的概率显著高于正态分布。这就意味着在厚尾分布中,出现极端异常值的可能性更大。
  2. 峰度高

    • 峰度是衡量分布形状的一个指标,它反映了分布的尖峭程度和尾部的厚重程度。厚尾分布通常具有较高的峰度。正态分布的峰度为0(以它为基准),而厚尾分布的峰度大于0。高峰度意味着分布的中间部分(峰部)更尖,同时尾部更厚。例如,学生t分布(自由度较小时)是一种厚尾分布,当自由度较小时,它的峰度比正态分布高,这使得它在描述一些金融资产收益率等数据时,能更好地捕捉到极端波动的情况。
  3. 均值和方差的特性

    • 对于一些厚尾分布,其均值和方差可能不存在或者不具有实际意义。以柯西分布为例,它的均值和方差都是未定义的。这是因为其尾部太厚,极端值对均值和方差的计算影响过大,导致这些统计量无法收敛到一个有限的值。这与正态分布等轻尾分布不同,正态分布的均值和方差都是良好定义的,且具有实际的统计意义,可以很好地描述数据的集中趋势和离散程度。

二、厚尾分布的应用场景

  1. 金融领域
    • 在金融市场中,资产价格的波动往往不符合正态分布。例如,股票价格的收益率分布通常具有厚尾特征。这是因为股票市场会受到各种突发事件(如政治动荡、公司丑闻等)的影响,导致价格出现极端的上涨或下跌。厚尾分布能够更好地描述这种极端波动的情况。像学生t分布就被广泛用于金融风险建模,如在计算投资组合的风险价值(Value at Risk,VaR)时,使用厚尾分布可以更准确地估计极端市场情况下投资组合可能遭受的损失。
  2. 保险领域
    • 保险理赔金额的分布也常常是厚尾的。因为虽然大部分理赔金额可能比较小(如一些小额的财产损失),但是偶尔会出现一些巨额的理赔,如自然灾害导致的大规模财产损失。厚尾分布能够更合理地反映这种理赔金额分布的特点,帮助保险公司更准确地评估风险和制定保险费率。例如,帕累托分布是一种厚尾分布,它在描述大额保险理赔数据时效果很好,能够更好地捕捉到大额理赔出现的概率,从而为保险公司的风险管理和定价提供依据。
  3. 网络流量分析
    • 网络流量数据也呈现出厚尾分布的特性。大部分时间网络流量可能处于较低水平,但是偶尔会出现流量的突发高峰,如大型在线活动期间。厚尾分布可以用来建模这种网络流量的波动情况,有助于网络运营商更好地规划网络资源,应对可能出现的流量高峰,避免网络拥堵等问题。
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import t, norm# 设置自由度
df = 3# 生成x值,这里从-5到5,共100个点
x = np.linspace(-5, 5, 100)# 计算学生t分布的概率密度函数值
y_t = t.pdf(x, df)# 计算正态分布的概率密度函数值,均值为0,标准差为1
y_norm = norm.pdf(x, 0, 1)# 绘制学生t分布图像
plt.plot(x, y_t, label=f"Student's t distribution (df={df})", color='blue')# 绘制正态分布图像
plt.plot(x, y_norm, label="Normal distribution (mean=0, std=1)", color='red', linestyle='--')# 添加标题和标签
plt.title("Comparison of Student's t Distribution and Normal Distribution")
plt.xlabel("x")
plt.ylabel("Probability Density")# 添加图例
plt.legend()# 显示图像
plt.show()

在这段代码中,我们增加了对正态分布的计算和绘制。使用scipy.stats中的norm模块来计算正态分布的概率密度函数值,这里设置正态分布的均值为0,标准差为1,这是标准正态分布的参数。

  • 图像对比分析
    • 尾部:在图像的两端(尾部),学生t分布(蓝色曲线)的概率密度明显高于正态分布(红色虚线)。这表明在学生t分布中,极端值(距离中心位置较远的值)出现的概率更大,这就是厚尾分布的典型特征。
    • 峰部:在图像的中间部分(峰部),学生t分布的峰值相对较低,而正态分布的峰值较高。这说明正态分布的数据更集中于均值附近,而学生t分布的数据分布相对更分散,这也是厚尾分布与轻尾分布在数据集中趋势描述上的差异。
    • 整体形状:从整体形状上看,学生t分布的曲线更“丰满”,尾部更“肥厚”,而正态分布的曲线更“瘦高”,尾部迅速衰减。这种形状差异直观地反映了两种分布在描述数据极端波动能力上的不同,厚尾分布更适合描述那些极端波动较为频繁的数据,如金融资产收益率等。

在这里插入图片描述

下面是一个绘制柯西分布和正态分布对比图的代码示例:

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import cauchy, norm# 生成x值,这里从-10到10,共400个点
x = np.linspace(-10, 10, 400)# 计算标准柯西分布的概率密度函数值
y_cauchy = cauchy.pdf(x, loc=0, scale=1)# 计算标准正态分布的概率密度函数值
y_norm = norm.pdf(x, loc=0, scale=1)# 绘制柯西分布图像
plt.plot(x, y_cauchy, label='Cauchy Distribution', color='blue')# 绘制正态分布图像
plt.plot(x, y_norm, label='Normal Distribution', color='red', linestyle='--')# 添加标题和标签
plt.title('Comparison of Cauchy and Normal Distributions')
plt.xlabel('x')
plt.ylabel('Probability Density')# 添加图例
plt.legend()# 显示图像
plt.show()

代码解释

  1. 导入库

    • numpy 用于生成数据点。
    • matplotlib.pyplot 用于绘图。
    • scipy.stats 中的 cauchynorm 模块分别用于计算柯西分布和正态分布的概率密度函数值。
  2. 生成x值

    • np.linspace(-10, 10, 400) 生成从-10到10的400个等间距的点,这些点将用于计算概率密度函数值。
  3. 计算概率密度函数值

    • cauchy.pdf(x, loc=0, scale=1) 计算标准柯西分布的概率密度函数值。
    • norm.pdf(x, loc=0, scale=1) 计算标准正态分布的概率密度函数值。
  4. 绘制图像

    • plt.plot(x, y_cauchy, label='Cauchy Distribution', color='blue') 绘制柯西分布的图像。
    • plt.plot(x, y_norm, label='Normal Distribution', color='red', linestyle='--') 绘制正态分布的图像,使用虚线表示。
  5. 添加标题和标签

    • plt.title('Comparison of Cauchy and Normal Distributions') 添加标题。
    • plt.xlabel('x')plt.ylabel('Probability Density') 分别添加x轴和y轴的标签。
  6. 添加图例

    • plt.legend() 添加图例,显示每条曲线的标签。
  7. 显示图像

    • plt.show() 显示图像。

图像对比分析

  • 尾部:柯西分布的尾部明显比正态分布的尾部更厚,这意味着柯西分布中极端值出现的概率更高。这使得柯西分布更适合描述那些极端波动较为频繁的数据,如金融资产收益率等。
  • 峰部:柯西分布的峰值相对较低,而正态分布的峰值较高。这表明正态分布的数据更集中于均值附近,而柯西分布的数据分布相对更分散。
  • 整体形状:柯西分布的曲线更“丰满”,尾部更“肥厚”,而正态分布的曲线更“瘦高”,尾部迅速衰减。

通过这种对比,可以更直观地理解厚尾分布(柯西分布)与轻尾分布(正态分布)的差异。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/68173.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机组存储系统

局部性 理论 程序执行,会不均匀访问主存,有些被频繁访问,有些很少被访问 时间局部性 被用到指令,不久可能又被用到 产生原因是大量循环操作 空间局部性 某个数据和指令被使用,附近数据也可能使用 主要原因是顺序存…

Transformer创新模型!Transformer+BO-SVR多变量回归预测,添加气泡图、散点密度图(Matlab)

Transformer创新模型!TransformerBO-SVR多变量回归预测,添加气泡图、散点密度图(Matlab) 目录 Transformer创新模型!TransformerBO-SVR多变量回归预测,添加气泡图、散点密度图(Matlab&#xff0…

31_搭建Redis分片集群

Redis的主从复制模式和哨兵模式可以解决高可用、高并发读的问题。但是依然有两个问题没有解决:海量数据存储问题、高并发写的问题。由于数据量过大,单个master复制集难以承担,因此需要对多个复制集进行集群,形成水平扩展每个复制集只负责存储整个数据集的一部分,这就是Red…

ASP.NET Core - 日志记录系统(二)

ASP.NET Core - 日志记录系统(二) 2.4 日志提供程序2.4.1 内置日志提供程序2.4.2 源码解析 本篇接着上一篇 ASP.NET Core - 日志记录系统(一) 往下讲,所以目录不是从 1 开始的。 2.4 日志提供程序 2.4.1 内置日志提供程序 ASP.NET Core 包括…

nginx的可视化配置工具nginxWebUI的使用

文章目录 1、nginx简介2、nginxWebUI2.1、技术解读2.2、开源版和专业版之间的区别2.3、功能解读 3、安装与使用3.1、下载镜像3.2、查看镜像3.3、启动容器3.4、使用 4、总结 1、nginx简介 Nginx 是一个高效的 HTTP 服务器和反向代理,它擅长处理静态资源、负载均衡和…

【C++】IO 流

文章目录 👉C 语言的输入与输出👈👉流是什么👈👉C IO 流👈C 标准 IO 流C 和 C 语言的输入格式问题C 的多次输入内置类型和自定义类型的转换日期的多次输入C 文件 IO 流文本文件和二进制文件的读写 &#x1…

基于springboot的幼儿园管理系统系统

作者:学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等 文末获取“源码数据库万字文档PPT”,支持远程部署调试、运行安装。 项目包含: 完整源码数据库功能演示视频万字文档PPT 项目编码&#xff1…

Pycharm 使用教程

一、基本配置 1. 切换Python解释器 pycharm切换解释器版本 2. pycharm虚拟环境配置 虚拟环境的目的:创建适用于该项目的环境,与系统环境隔离,防止污染系统环境(包括需要的库)虚拟环境配置存放在项目根目录下的 ven…

Java设计模式——单例模式(特性、各种实现、懒汉式、饿汉式、内部类实现、枚举方式、双重校验+锁)

文章目录 单例模式1️⃣特性💪单例模式的类型与实现:类型懒汉式实现(线程不安全)懒汉式实现(线程安全)双重锁校验懒汉式(线程安全)饿汉式实现(线程安全)使用类的内部类实现⭐枚举方式实现单例(推荐)👍 单例…

STM32 FreeRTOS中断管理

目录 FreeRTOS的中断管理 1、STM32中断优先级管理 2、FreeRTOS任务优先级管理 3、寄存器和内存映射寄存器 4、BASEPRI寄存器 5、FreeRTOS与STM32中断管理结合使用 vPortRaiseBASEPRI vPortSetBASEPRI 6、FromISR后缀 7、在中断服务函数中调用FreeRTOS的API函数需注意 F…

[Spring] SpringCloud概述与环境工程搭建

🌸个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 🏵️热门专栏: 🧊 Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 🍕 Collection与…

mobaxterm内置编辑器中文出现乱码如何解决:直接更换编辑器为本地编辑器

诸神缄默不语-个人CSDN博文目录 使用场景是我需要用mobaxterm通过SSH的方式登录服务器,进入服务器之后我就直接打开代码文件,mobaxterm会直接用内置的编辑器(MobaTextEditor)打开,但这会导致中文编程乱码。 我一开始是…

机器学习与人工智能的关系

机器学习与人工智能的关系 一、人工智能二、机器学习2.1 机器学习与人工智能的关系2.2 机器学习的本质 三、其他玩艺 曾几何时,人工智能还是个科幻名词,仿佛只属于未来世界。如今,它已经渗透到了我们生活的方方面面,成为顶流。我们…

一些常见的Java面试题及其答案

Java基础 1. Java中的基本数据类型有哪些? 答案:Java中的基本数据类型包括整数类型(byte、short、int、long)、浮点类型(float、double)、字符类型(char)和布尔类型(boo…

构建高性能网络服务:从 Socket 原理到 Netty 应用实践

1. 引言 在 Java 网络编程中,Socket 是实现网络通信的基础(可以查看我的上一篇博客)。它封装了 TCP/IP 协议栈,提供了底层通信的核心能力。而 Netty 是在 Socket 和 NIO 的基础上,进一步封装的高性能、异步事件驱动的…

Docker PG流复制搭建实操

目录标题 制作镜像1. 删除旧的容器2. 创建并配置容器3. 初始化数据库并启动 主库配置参数4. 配置主库5. 修改 postgresql.conf 配置 备库配置参数6. 创建并配置备库容器7. 初始化备库 流复制8. 检查主库复制状态9. 检查备库配置 优化建议问题1:FATAL: using recover…

Elasticsearch 批量导入数据(_bluk方法)

官方API&#xff1a;https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-bulk.html 建议先看API POST /<索引名>/_bulk 格式要求&#xff1a; POST _bulk { "index" : { "_index" : "test", "_id" : &q…

Active Prompting with Chain-of-Thought for Large Language Models

题目 大型语言模型的思维链主动提示 论文地址&#xff1a;https://arxiv.org/abs/2302.12246 项目地址&#xff1a;https://github.com/shizhediao/active-prompt 摘要 大型语言模型(LLM)规模的不断扩大为各种需要推理的复杂任务带来了涌现能力&#xff0c;例如算术和常识推理…

Windows图形界面(GUI)-QT-C/C++ - QT控件创建管理初始化

公开视频 -> 链接点击跳转公开课程博客首页 -> ​​​链接点击跳转博客主页 目录 控件创建 包含对应控件类型头文件 实例化控件类对象 控件设置 设置父控件 设置窗口标题 设置控件大小 设置控件坐标 设置文本颜色和背景颜色 控件排版 垂直布局 QVBoxLayout …