Python社会经济 | 怀特的异方差一致估计量

🎯要点

🎯算法​和模型底层数学及代码:🖊线性代数应用(主成分分析):降维、投影(用于求解线性系统)和二次形式(用于优化)| 🖊奇值分解 | 🖊线性代数 | 🖊求方程根 | 🖊数值优化及算法 | 🖊梯度方向和牛顿方向的线搜索 | 🖊最小二乘优化 | 🖊梯度下降优化 | 🖊约束优化 | 🖊并行编程 | 🖊多核并行 | 🖊使用C/C++代码 | 🖊贝叶斯和概率规划 | 🖊蒙特卡罗方法 | 🖊蒙特卡罗积分 | 🖊马尔可夫链 | 🖊马尔可夫链蒙特卡罗 | 🖊哈密顿蒙特卡罗 | 🖊线性回归 | 🖊逻辑回归 | 🖊分层模型 | 🖊混合模型 | 🖊概率分布。

📜概率统计算法模型和并行计算-用例

📜Python产品价格弹性生命周期和客户群利润点概率推理数学模型 | 📜Python | MATLAB | R 心理认知数学图形模型推断 | 📜Python燃气轮机汽车钢棒整流电路控制图统计模型过程潜力分析 | 📜Python高层解雇和客户活跃度量化不确定性模型 | 📜Python | R 雌雄配对和鱼仔变异马尔可夫链 | 📜Julia和Python蛛网图轨道图庞加莱截面曲面确定性非线性系统 | 📜C++和Python通信引文道路社评电商大规模行为图结构数据模型 | 📜Python和C++数学物理计算分形热力学静电学和波动方程 | 📜C++和Python计算金融数学方程算法模型 | 📜Python和R概率统计算法建模评估气象和运动 | 📜Python流体数据统计模型和浅水渗流平流模型模拟 | 📜社会经济怀特的异方差一致估计量统计推理。

🍇Python统计可视化离群值

机器学习算法的成功在很大程度上取决于输入模型的数据的质量。现实世界的数据通常很脏,包含异常值、缺失值、错误的数据类型、不相关的特征或非标准化数据。任何这些因素的存在都会阻碍机器学习模型的正确学习。因此,将原始数据转换为有用的格式是机器学习过程中必不可少的阶段。

离群值是数据集中表现出某种异常并与正常数据有显著偏差的对象。在某些情况下,离群值可以提供有用的信息(例如在欺诈检测中)。然而,在其他情况下,它们不会提供任何有用的信息,并且会严重影响学习算法的性能。

在此,我们将演示使用箱线图、散点图和残差等多种技术从数据集中识别异常值。

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
plt.style.use('seaborn')# read csv file
df_weight = pd.read_csv('weight.csv')# visualize the first 5 rows
df_weight.head()

height  weight  0 161.000724 55.530340 1 171.504245 71.872692 2 173.201739 69.897780 3 166.563658 62.395484 4 176.464080 80.540956 \begin{array}{rrr} & \text { height } & \text { weight } \\ \hline 0 & 161.000724 & 55.530340 \\ 1 & 171.504245 & 71.872692 \\ 2 & 173.201739 & 69.897780 \\ 3 & 166.563658 & 62.395484 \\ 4 & 176.464080 & 80.540956 \end{array} 01234 height 161.000724171.504245173.201739166.563658176.464080 weight 55.53034071.87269269.89778062.39548480.540956

您可能会注意到,本文使用的数据集非常简单(100 个观察值和 2 个特征)。在现实世界的问题中,您将处理更复杂的数据集。然而,识别异常值的程序保持不变

💦识别离群值

有许多视觉和统计方法来检测异常值。我们将详细解释 5 种用于识别数据集中异常值的工具:(1) 直方图,(2) 箱线图,(3) 散点图,(4) 残差值和 (5) Cook 距离。

直方图是可视化数值变量分布的常见图。在直方图中,数据被分成也称为区间的区间。每个条形的高度代表每个箱内数据点的频率。两个变量的直方图如下所示。条形图呈钟形曲线,表明两个特征(体重和身高)呈正态分布。此外,还描绘了高斯核密度估计函数。该函数是概率密度函数的近似值,表示连续变量落入特定值范围内的概率。

ax = sns.distplot(df_weight.height, hist=True, hist_kws={"edgecolor": 'w', "linewidth": 3}, kde_kws={"linewidth": 3})ax.annotate('Possible outlier', xy=(188,0.0030), xytext=(189,0.0070), fontsize=12,arrowprops=dict(arrowstyle='->', ec='grey', lw=2), bbox = dict(boxstyle="round", fc="0.8"))plt.xticks(fontsize=14)
plt.yticks(fontsize=14)plt.xlabel('height', fontsize=14)
plt.ylabel('frequency', fontsize=14)
plt.title('Distribution of height', fontsize=20);

(图略,请自行执行上述代码)

ax = sns.distplot(df_weight.weight, hist=True, hist_kws={"edgecolor": 'w', "linewidth": 3}, kde_kws={"linewidth": 3})ax.annotate('Possible outlier', xy=(102, 0.0020), xytext=(103, 0.0050), fontsize=12,arrowprops=dict(arrowstyle='->', ec='grey', lw=2), bbox=dict(boxstyle="round", fc="0.8"))plt.xticks(fontsize=14)
plt.yticks(fontsize=14)plt.xlabel('weight', fontsize=14)
plt.ylabel('frequency', fontsize=14)
plt.title('Distribution of weights', fontsize=20);

(图略,请自行执行上述代码)

如上所示,两个变量似乎都存在异常值(孤立条)。重要的是要记住,直方图不能像箱线图那样从统计上识别异常值。相反,使用直方图识别异常值完全是视觉上的,取决于我们的个人观点。

箱线图是探索性数据分析的绝佳工具,可以轻松地在分布之间进行比较。它显示了数据集的五数摘要,其中包括:

  • 最小值:排除异常值后的最小值(根据IQR邻近规则计算)
  • 最大值:排除异常值后的最大值(根据IQR邻近规则计算)
  • 中位数 (Q2):分布的中点
  • 第一个四分位数(Q1):数据集下半部分的中点
  • 第三四分位数(Q3):数据集上半部分的中点

方框表示第一四分位数和第三四分位数之间的数据,也称为四分位距 (IQR = Q3-Q1)。它包含 50% 的数据,并被中位数分成两部分。须根据 IQR 接近规则表示。

上边界 = = = 第三个四分位数 + ( 1.5 +(1.5 +(1.5 *QR ) ) )

下边界 = = = 第一个四分位数 − ( 1. 5 ∗ I Q R ) -\left(1.5^* IQR \right) (1.5IQR)

如果某个值超出此范围,则该值被视为离群值,并以带点的箱线图表示。

两个变量的箱线图如下所示。我们在身高 = 190 和体重 = 105 处观察到异常值。

ax = sns.boxplot(df_weight.height)ax.annotate('Outlier', xy=(190,0), xytext=(186,-0.05), fontsize=14,arrowprops=dict(arrowstyle='->', ec='grey', lw=2), bbox = dict(boxstyle="round", fc="0.8"))plt.xticks(fontsize=14)
plt.xlabel('height', fontsize=14)
plt.title('Distribution of height', fontsize=20)
ax = sns.boxplot(df_weight.weight)ax.annotate('Outlier', xy=(105,0), xytext=(98,-0.05), fontsize=14,arrowprops=dict(arrowstyle='->', ec='grey', lw=2), bbox = dict(boxstyle="round", fc="0.8"))plt.xticks(fontsize=14)
plt.xlabel('weight', fontsize=14)
plt.title('Distribution of weight', fontsize=20)

与直方图不同,箱线图根据 IQR 邻近规则统计识别异常值,这意味着异常值的识别不仅仅依赖于我们的个人观点。

👉参阅一:计算思维

👉参阅二:亚图跨际

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/22092.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

描述一下 Array.forEach() 循环和 Array.map() 方法之间的主要区别

Array.forEach() 和 Array.map() 都是 JavaScript 数组中常用的方法,但它们之间有一些重要的区别: 返回值:forEach():没有返回值,它只是对数组中的每个元素执行提供的函数。map():返回一个新的数组,其元素是通过对原数组的每个元素执行提供的函数后的结…

nestjs 全栈进阶--拦截器

视频教程 23_nestjs中的拦截器_哔哩哔哩_bilibili 1. rxjs 介绍 RxJS(Reactive Extensions for JavaScript)是一款专为JavaScript和TypeScript设计的响应式编程库,它遵循ReactiveX规范,提供了一套强大的工具和API,用…

vue 将图片url转base64

<img :src"imgList[0]" width"600" error"handleImageError" alt"0" load"onloadImg" />//当图片加载完成时&#xff0c;将图片url转成base64onloadImg(event) {this.urlTobase64(event.target.src, event.target.alt…

Mac 使用Docker安装Elasticsearch、Kibana

安装ElasticSearch 通过docker安装es docker pull elasticsearch:8.6.2 在本地创建elasticsearch.yml文件 mkdir /Users/ky/Documents/learn/es/elasticsearch.yml 编辑yml文件内容 http: host: 0.0.0.0 xpack.security.enabled: false xpack.security.enrollment.enabled: t…

Scala 练习一 将Mysql表数据导入HBase

Scala 练习一 将Mysql表数据导入HBase 续第一篇&#xff1a;Java代码将Mysql表数据导入HBase表 源码仓库地址&#xff1a;https://gitee.com/leaf-domain/data-to-hbase 一、整体介绍 HBase特质 连接HBase, 创建HBase执行对象 初始化配置信息&#xff1a;多条(hbase.zookeeper.…

ARM学习(28)NXP 双coreMCU IMX1160学习

笔者最近接触到一块IMXRT1160的双core板子&#xff0c;特依次来记录学习一下 1、IMXRT1160 板子介绍 介绍一下NXP的Demo板子&#xff0c;是一个双core的板子&#xff0c;Cortex-M7和Cortex-M4&#xff0c;总计1MB的RAM空间&#xff0c;256KB的ROM空间&#xff0c;提供了丰富的…

excel工资表基本操作

1.基本操作 1)新建工作表:点击下方田可以新建一张工作表。 2)切换工作表:点击工作表名称可以切换工作表。o 3)如果我们有很多张工作表的话&#xff0c;在切换工作表处右键可选择你所需要 腿除 叫打开的工作表。4)插入删除:随意选择一张工作表右键&#xff0c;可以看到右圩、 名…

c++ 录制电脑屏幕桌面

1&#xff1a;调用windows GDI bool WindowsGDI::init(int idx) {mHWinSta GetProcessWindowStation();if (!mHWinSta) {LOGE("%s GetProcessWindowStation error", getCapture());return false;}mHWnd GetDesktopWindow();//GetActiveWindow();mWndHDC GetDC(mH…

UE5 插件第三方库的build写法记录

// Copyright Epic Games, Inc. All Rights Reserved.using UnrealBuildTool; using System.IO;//方法为创建第三方库插件,CoustemOpenCV为插件名称 public class CoustemOpenCV : ModuleRules {public CoustemOpenCV(ReadOnlyTargetRules Target) : base(Target){PCHUsage = …

Window10磁盘的分盘和合并

注意&#xff1a; 当我们c盘不够大需要扩大磁盘空间时&#xff0c;当c盘后面没有未划分的磁盘时候&#xff0c;我们是无法进行扩充c盘的&#xff0c;此时&#xff0c;我们可以先删除后面一个磁盘&#xff0c;再进行扩大。 如下&#xff1a;c盘后没有未分配的空间&#xff0c;…

nginx优化和重写功能rewrite

一、nginx优化 1.防盗链 防盗链基于客户端携带的referer实现&#xff0c;referer是记录打开一个页面之前记录是从哪个页面跳转过来的标记信息&#xff0c;如果别人只链接了自己网站图片或某个单独的资源&#xff0c;而不是打开了网站的整个页面&#xff0c;这就是盗链&#x…

【项目管理常见问题大揭秘】每个管理者都要Get的「五维思维」~

走上管理岗☸要懂得五维思维 &#x1f4bc;自我管理——做自己的CEO 严于律己&#xff1a;严格要求自己&#xff0c;注重个人品牌建设 宽以待人&#xff1a;接纳不同观点&#xff0c;提升团队凝聚力 尊重事实&#xff1a;鼓励团队成员发挥优势&#xff0c;避免负面评价 坚守诚…

求助:西莫电子期刊 交流互助 传递

点击上方 “机械电气电机杂谈 ” → 点击右上角“...” → 点选“设为星标 ★”&#xff0c;为加上机械电气电机杂谈星标&#xff0c;以后找夏老师就方便啦&#xff01;你的星标就是我更新动力&#xff0c;星标越多&#xff0c;更新越快&#xff0c;干货越多&#xff01; 关注…

Java面经——SpringCloud微服务

SpringCloud SpringCloud的五大组件 注册中心网关远程调用负载均衡熔断降级 谈谈你对SpringCloud的理解 SpringCloud是为了解决微服务架构中出现的一系列服务治理难题的而提出的一套规范&#xff0c;统一了标准。降低了微服务架构的开发难度。有了 Spring Cloud 这样的技术生…

【CSS】object-fit 和 object-position 属性详解

目录 object-fit属性属性值&#xff1a;使用场景&#xff1a; object-position 属性语法&#xff1a;例如&#xff1a;使用场景&#xff1a; object-fit和object-position是CSS属性&#xff0c;用于控制图像或视频在其容器中的适应和定位方式。 object-fit属性 属性值&#xf…

【android 9】【input】【8.发送按键事件2——InputDispatcher线程】

系列文章目录 本人系列文章-CSDN博客 目录 系列文章目录 1.简介 1.1流程介绍 1.2 时序图 2.普通按键消息发送部分源码分析&#xff08;按键按下事件&#xff09; 2.1 开机后分发线程阻塞的地方 2.2 InputDispatcher::dispatchOnceInnerLocked 2.3 InputDispatcher::disp…

使用C语言实现贪吃蛇(超详细)

目录 实现贪吃蛇我们要知道哪些&#xff1f; Easyx图形库 Easyx的安装 游戏思路 游戏实现 头文件的使用 ​编辑和食物以及控制方向的初始化 对于坐标的实现&#xff1a; 食物颜色的实现&#xff1a; 游戏数据的初始化 加载音乐 图形窗口的设置&#xff1a; 蛇身节数…

GEE案例——归一化差异水体指数丰水期、枯水期的水域面积和水深分析(青海湖为例)

简介 水深反演是指利用遥感技术从航空或卫星平台上获取的数据来推断水体的深度信息。这种技术在海洋学、湖泊和河流的科学研究与管理中非常重要。以下是几种常用的水深反演方法: 1. **光学遥感反演**: - 基于水体颜色和透明度的变化与水深的关系,使用光学遥感影像(如L…

【动手学深度学习】多层感知机之暂退法问题研究详情

目录 &#x1f30a;问题研究1 &#x1f31e;问题研究2 &#x1f332;问题研究3 &#x1f30d;问题研究4 &#x1f333;问题研究5 &#x1f30c;问题研究6 &#x1f30a;问题研究1 如果更改第一层和第二层的暂退法概率&#xff0c;会发生什么情况&#xff1f;具体地说&am…

深入理解指针(4)--新手小白都能明白的指针解析

深入理解指针(4)–新手小白都能明白的指针解析 文章目录 深入理解指针(4)--新手小白都能明白的指针解析1. 回调函数2. qsort使用举例2.1 冒泡排序2.2 qsort函数介绍2.3 用冒泡排序实现qsort 结语 1. 回调函数 回调函数就是⼀个通过函数指针调用的函数 如果我们把函数的指针&a…