【因果推断python】10_分组和虚拟变量回归1

目录

分组数据回归


分组数据回归

并非所有数据点都是一样的。 如果我们再次查看我们的 ENEM 数据集,相比小规模学校的分数,我们更相信规模较大的学校的分数。 这并不是说大型学校更好或什么, 而只是因为它们的较大规模意味着更小的方差。

import warnings
warnings.filterwarnings('ignore')import pandas as pd
import numpy as np
from scipy import stats
from matplotlib import style
import seaborn as sns
from matplotlib import pyplot as plt
import statsmodels.formula.api as smfstyle.use("fivethirtyeight")np.random.seed(876)
enem = pd.read_csv("./data/enem_scores.csv").sample(200)
plt.figure(figsize=(8,4))
sns.scatterplot(y="avg_score", x="number_of_students", data=enem)
sns.scatterplot(y="avg_score", x="number_of_students", s=100, label="Trustworthy",data=enem.query(f"number_of_students=={enem.number_of_students.max()}"))
sns.scatterplot(y="avg_score", x="number_of_students", s=100, label="Not so Much",data=enem.query(f"avg_score=={enem.avg_score.max()}"))
plt.title("ENEM Score by Number of Students in the School");

在上面的数据中,直观上,左边的点对我的模型的影响应该比右边的点小。本质上,右边的点实际上是许多其他数据点组合成一个。如果我们可以拆分它们并对未分组的数据进行线性回归,那么它们对模型估计的贡献确实比左侧的未捆绑点要大得多。

这种同时具有一个低方差区域和另一个高方差区域的现象称为异方差。简而言之,异方差是指因变量的方差在各个特征变量的值域内方差不是恒定的。在上面的例子中,我们可以看到因变量方差随着特征样本大小的增加而减少。再举一个我们有异方差的例子,如果你按年龄绘制工资,你会发现老年人的工资差异大于年轻人的工资差异。但是,到目前为止,方差不同的最常见原因是分组数据。

像上面这样的分组数据在数据分析中非常常见。原因之一是保密。政府和公司不能泄露个人数据,因为这会违反他们必须遵守的数据隐私要求。如果他们需要将数据导出给外部研究人员,他们只能通过对数据进行分组的方式来完成。这样,个人集合在一起,不再是唯一可识别的。

对我们来说幸运的是,回归可以很好地处理这些类型的数据。要了解如何做,让我们首先采用一些未分组的数据,例如我们在工资和教育方面的数据。在这些数据集中,每个工人对应一行数据,所以我们知道这个数据集中每个人的工资以及他或她有多少年的教育。

wage = pd.read_csv("./data/wage.csv")[["wage", "lhwage", "educ", "IQ"]]wage.head()

如果我们运行一个回归模型来找出教育与对数小时工资的关系,我们会得到以下结果。

model_1 = smf.ols('lhwage ~ educ', data=wage).fit()
model_1.summary().tables[1]

现在,让我们暂时假设这些数据有某种保密限制, 它的提供者无法提供个性化数据。 因此,我们请他将每个人按受教育年限分组,并只给我们平均对数小时工资和每个组中的人数。 这让我们只剩下 10 个数据点。

group_wage = (wage.assign(count=1).groupby("educ").agg({"lhwage":"mean", "count":"count"}).reset_index())group_wage

不要怕! 回归不需要大数据就可以工作! 我们可以做的是为我们的线性回归模型提供权重。 这样,相对样本量稍小的群体,模型会更多地考虑样本量更大的群体。 请注意我是如何用 smf.wls 替换 smf.ols 的,以获得加权最小二乘法。 新方法会让一切变得不同,虽然这点不容易被注意到。

model_2 = smf.wls('lhwage ~ educ', data=group_wage, weights=group_wage["count"]).fit()
model_2.summary().tables[1]

注意分组模型中 edu 的参数估计与未分组数据中的参数估计完全相同。 此外,即使只有 10 个数据点,我们也设法获得了具有统计意义的系数。 那是因为,虽然我们的点数较少,但分组也大大降低了方差。 还要注意参数估计的标准误差是变得大了一点,t 统计量也是如此。 那是因为丢失了一些关于方差的信息,所以我们必须更加保守。 一旦我们对数据进行分组,我们不知道每个组内的方差有多大。 将上面的结果与我们在下面的非加权模型中得到的结果进行比较。

model_3 = smf.ols('lhwage ~ educ', data=group_wage).fit()
model_3.summary().tables[1]

参数估计值相对较大。 这里发生的事情是回归对所有点施加了相等的权重。 如果我们沿着分组点绘制模型,我们会看到非加权模型对左下角小点的重视程度高于应有的重视程度。 因此,该模型的回归线具有更高的斜率。

sns.scatterplot(x="educ", y = "lhwage", size="count", legend=False, data=group_wage, sizes=(40, 400))
plt.plot(wage["educ"], model_2.predict(wage["educ"]), c="C1", label = "Weighted")
plt.plot(wage["educ"], model_3.predict(wage["educ"]), c="C2", label = "Non Weighted")
plt.xlabel("Years of Education")
plt.ylabel("Log Hourly Wage")
plt.legend();

归根结底,回归就是这个奇妙的工具,可以处理单个数据或聚合数据,但在最后一种情况下您必须使用权重。 要使用加权回归,您需要平均统计量。 不是总和,不是标准差,不是中位数,而是平均值! 对于自变量和因变量都需要这么处理。 除了单一自变量回归的情况外,分组数据的加权回归结果与未分组数据的回归结果不会完全匹配,但会非常相似。

我将用在分组数据模型中使用附加自变量的最后一个例子来结束。

group_wage = (wage.assign(count=1).groupby("educ").agg({"lhwage":"mean", "IQ":"mean", "count":"count"}).reset_index())model_4 = smf.wls('lhwage ~ educ + IQ', data=group_wage, weights=group_wage["count"]).fit()
print("Number of observations:", model_4.nobs)
model_4.summary().tables[1]
Number of observations: 10.0

在此示例中,除了先前添加的教育年限之外,我们还包括 IQ 作为一个特征。运作机制几乎相同:获取均值并计数,回归均值并将计数用作权重。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/21030.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

bootstrap5-学习笔记1-容器+布局+按钮+工具

参考: Bootstrap5 教程 | 菜鸟教程 https://www.runoob.com/bootstrap5/bootstrap5-tutorial.html Spacing Bootstrap v5 中文文档 v5.3 | Bootstrap 中文网 https://v5.bootcss.com/docs/utilities/spacing/ 之前用bootstrap2和3比较多,最近用到了5&a…

SRE视角下的DevOps构建之道

引言: 随着数字化时代的飞速发展,软件成为了企业竞争力的核心。为了更高效地交付高质量的软件,DevOps(Development和Operations的组合)作为一种文化、实践和工具集的集合,逐渐成为了行业内的热门话题。然而…

渲染100为什么是高性价比网渲平台?渲染100邀请码1a12

市面上主流的网渲平台有很多,如渲染100、瑞云、炫云、渲云等,这些平台各有特色和优势,也都声称自己性价比高,以渲染100为例,我们来介绍下它的优势有哪些。 1、渲染100对新用户很友好,注册填邀请码1a12有3…

【CTF MISC】XCTF GFSJ0008 low Writeup(LSB隐写+QR Code识别)

low 暂无 解法 用 StegSolve 打开,Green plane 1 中疑似隐藏有二维码。 使用大佬写的代码: from PIL import Imageimg Image.open("./low.bmp") img_tmp img.copy() pix img_tmp.load() width, height img_tmp.size for w in range(wid…

每日一题——Python实现PAT甲级1046 Shortest Distance(举一反三+思想解读+逐步优化)

一个认为一切根源都是“自己不够强”的INTJ 个人主页:用哲学编程-CSDN博客专栏:每日一题——举一反三Python编程学习Python内置函数 Python-3.12.0文档解读 目录 我的写法 专业点评 优点 改进建议 时间复杂度分析 空间复杂度分析 总结 我要更…

HCIP-Datacom-ARST自选题库__MAC【14道题】

一、单选题 1.缺省情况下,以下哪种安全MAC地址类型在设备重启后表项会丢失? 黑洞MAC地址 Sticky MAC地址 安全动态MAC地址 安全静态MAC地址 2.华为交换机MAC地址表中的动态sticky MAC地址的默认老化时间是多少秒? 300 不会老化 400 500 3.华为交换机MA…

Polar Web【简单】login

Polar Web【简单】login 本文旨在记录此题的探索和解决过程。 Contents Polar Web【简单】login探索&思路EXP (python)结果&总结 探索&思路 查看源码,发现存在用户信息泄露。尝试用获取信息登录,显示成功,但其后没有可做的操作。…

有损线、上升边退化与材料特性(七)

有损线的不良影响 当信号沿着实际有损线传输时,高频分量的幅度减小,而低频分量的幅度保持不变。由于这个种选择性的衰减,信号的带宽降低,信号的上升边会增长。如果上升边的退化与单位间隔比很小,同位模式将比较稳定与…

Django视图与路由:打造你的网络帝国

Hello,我是阿佑,上期给大家讲了 Django ORM魔法:用Python代码召唤数据库之灵! 今天将带大家深入探讨了视图的工作原理、如何编写高效的函数视图和类视图,以及如何巧妙地利用URL路由来提升应用的用户体验和可维护性。通…

最新h5st(4.7.2)参数分析与纯算法还原(含算法源码)

文章目录 1. 写在前面2. 加密分析3. 算法还原 【🏠作者主页】:吴秋霖 【💼作者介绍】:擅长爬虫与JS加密逆向分析!Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python…

图解 Python 编程(10) | 错误与异常处理

🌞欢迎来到Python的世界 🌈博客主页:卿云阁 💌欢迎关注🎉点赞👍收藏⭐️留言📝 🌟本文由卿云阁原创! 📆首发时间:🌹2024年6月2日&…

数据结构(C):从初识堆到堆排序的实现

目录 🌞0.前言 🚈 1.堆的概念 🚈 2.堆的实现 🚝2.1堆向下调整算法 🚝2.2堆的创建(堆向下调整算法) ✈️2.2.1 向下调整建堆时间复杂度 🚝2.3堆向上调整算法 🚝2.…

c++------类和对象(下)包含了this指针、构造函数、析构函数、拷贝构造等

文章目录 前言一、this指针1.1、this指针的引出1.2、 this指针的特性 二、类的默认的六个构造函数2.1、构造函数简述2.2构造函数 三、析构函数3.1、析构函数引出3.2、特点: 四、拷贝构造4.1、引入4.2、特征:4.3、默认拷贝构造函数 总结 前言 在本节中&a…

Compose Multiplatform 1.6.10 发布,解释一些小问题, Jake 大佬的 Hack

虽然一直比较关注跨平台开发,但其实我很少写 Compose Multiplatform 的内容,因为关于 Compose Multiplatform 的使用,其实我并没在实际生产环境上发布过,但是这个版本确实值得一提,因为该版本包含: iOS Bet…

数据库(15)——DQL分页查询

DQL分页查询语法 SELECT 字段列表 FROM 表名 LIMIT 起始索引,查询记录数; 注:起始索引从0开始,起始索引(查询页码-1)*每页显示记录数。 如果查询的是第一页,可以省略起始索引。 示例:查询第一页…

【考研数学】概率论如何复习?跟谁好?

概率论一定要跟对老师,如果跟对老师,考研基本上能拿满分 概率论在考研试卷中占比并不大,其中: 高等数学,90分,约占比60%; 线性代数,30分,约占比20%; 概率论与数理统计&#xff0…

每日5题Day15 - LeetCode 71 - 75

每一步向前都是向自己的梦想更近一步&#xff0c;坚持不懈&#xff0c;勇往直前&#xff01; 第一题&#xff1a;71. 简化路径 - 力扣&#xff08;LeetCode&#xff09; class Solution {public String simplifyPath(String path) {Deque<String> stack new LinkedList…

mysql的增删查改(进阶)

目录 一. 更复杂的新增 二. 查询 2.1 聚合查询 COUNT SUM AVG MAX MIN 2.1.2 分组查询 group by 子句 2.1.3 HAVING 2.2 联合查询/多表查询 2.2.1 内连接 2.2.2 外连接 2.2.3 全外连接 2.2.4 自连接 2.2.5 子查询 2.2.6 合并查询 一. 更复杂的新增 将从表名查询到…

自动化办公01 smtplib 邮件⾃动发送

目录 一、准备需要发送邮件的邮箱账号 二、发送邮箱的基本步骤 1. 登录邮箱 2. 准备数据 3. 发送邮件 三、特殊内容的发送 1. 发送附件 2. 发送图片 3. 发送超文本内容 4.邮件模板内容 SMTP&#xff08;Simple Mail Transfer Protocol&#xff09;即简单邮件传输协议…

【Qt秘籍】[009]-自定义槽函数/信号

自定义槽函数 在Qt中自定义槽函数是一个直接的过程&#xff0c;槽函数本质上是类的一个成员函数&#xff0c;它可以响应信号。所谓的自定义槽函数&#xff0c;实际上操作过程和定义普通的成员函数相似。以下是如何在Qt中定义一个自定义槽函数的步骤&#xff1a; 步骤 1: 定义槽…