【斯坦福因果推断课程全集】1_随机对照试验1

目录

The average treatment effect

Difference-in-means estimation

IID Sampling and Population Asymptotics

Example: The linear model

Regression adjustments with a linear model


随机对照试验(RCT)是统计因果推论的基础。如果有的话,从随机对照试验中得出的证据通常被认为是金标准证据;即使由于伦理或实际原因无法进行随机对照试验,观察性研究的质量通常也是根据观察性研究与随机对照试验的近似程度来评估的。

今天的讲座将从潜在结果模型的角度来估算 RCT 的平均治疗效果,并讨论回归调整在因果效应估算中的作用。平均治疗效果完全通过随机化(或实验设计)确定。回归调整可用于减少方差,但回归模型在确定平均治疗效果方面不起任何作用。

The average treatment effect

我们通过潜在的结果来定义一种治疗的因果效应。对于w∈{0,1}的二元治疗,我们定义了潜在的结果Yi (1)和Yi (0)对应于第i个受试者的结果他们是否分别接受过治疗。治疗对第i个单位的因果效应是 \Delta_i=Y_i(1)-Y_i(0).

因果推论的根本问题在于,只能给给定个体分配一种干预,因此只能观察到 Yi(0) 和 Yi(1) 中的一种。因此,永远无法观测到 ∆i。

现在,尽管 ∆i 本身从根本上说是不可知的,但我们可以(也许是显著地)利用随机实验来了解 ∆i 的某些特性。特别是,大型随机实验可以让我们恢复平均干预效果(ATE)\tau=\mathbb{E}\left[Y_i(1)-Y_i(0)\right].

为此,假设我们观察到n个独立且同分布的样本(Yi,Wi)满足以下两个性质:\begin{aligned}Y_i&=Y_i(W_i)&\text{(SUTVA)}\\W_i&\perp\{Y_i(0), Y_i(1)\}&\text{(random treatment assignment)}\end{aligned}

那么,均值差估计器

\hat{\tau}_{DM}=\frac1{n_1}\sum_{W_i=1}Y_i-\frac1{n_0}\sum_{W_i=1}Y_i,\quad n_w=|\{i:W_i=w\}|对平均治疗效果是无偏不倚和一致的。

Difference-in-means estimation

τDM 的统计特性很容易建立。我们随机干预分配假设的一个关键结果是,在所有潜在结果 \{Y_i(0),|Y_i(1)\}_{i=1}^n 和 n1 的条件下,所有单位都以相同的概率接受干预:

\mathbb{P}\begin{bmatrix}W_i=1&\{Y_i(0), Y_i(1)\}_{i=1}^n, n_1\end{bmatrix}=\frac{n_1}n,\quad i=1, \ldots, n.

因此,对于治疗单位的平均结果,我们得到

\begin{aligned} &&&\begin{aligned}\mathbb{E}\left[\frac{1}{n_1}\sum_{W_i=1}Y_i \Big| \{Y_i(0), Y_i(1)\}_{i=1}^n , n_1\right]\end{aligned} \\ &&&=\mathbb{E}\left[\frac{1}{n_{1}}\sum_{i=1}^{n}W_{i}Y_{i} \Big| \{Y_{i}(0), Y_{i}(1)\}_{i=1}^{n} , n_{1}\right]& (\ldots) \\ &&&=\mathbb{E}\left[\frac{1}{n_1}\sum_{i=1}^nW_iY_i(1)\left| \{Y_i(0), Y_i(1)\}_{i=1}^n , n_1\right]\right. & \begin{aligned}(\mathrm{SUTVA})\end{aligned} \\ &&&=\frac{1}{n_1}\sum_{i=1}^nY_i(1)\mathbb{E}\left[W_i\left| \{Y_i(0), Y_i(1)\}_{i=1}^n , n_1\right]\right.& (\text{chain rule}) \\ &&&=\frac1n\sum_{i=1}^nY_i(1)& (\text{random assignment}), \end{aligned}而对照组的平均值也有类似的结果。因此,我们可以看到

\mathbb{E}\left[\hat{\tau}_{DM} \left| \{Y_i(0), Y_i(1)\}_{i=1}^n , n_1\right]=\tau_{SATE}:=\frac{1}{n}\sum_{i=1}^n\left(Y_i(1)-Y_i(0)\right).\quad(1.5)\right.

换句话说,仅仅由于随机化,均值差估计器对研究中 n 个单位潜在结果的平均差异是无偏的。这个量 \tau_{SATE} 通常称为样本平均干预效果。

IID Sampling and Population Asymptotics

无偏性结果(1.5)在潜在结果的任何实现条件下都成立,这意味着,在无条件的情况下、

\mathbb{E}\left[\hat{\tau}_{DM}\right]=\mathbb{E}\left[Y_i(1)\right]-\mathbb{E}\left[Y_i(0)\right]=\tau.

此外,考虑到 IID 采样,我们还可以将方差写成

\left.\text{Var}\left[\hat{\tau}_{DM}\left|\begin{array}{c|c}n_0, n_1\end{array}\right.\right.\right]=\frac{1}{n_0}\text{Var}\left[Y_i(0)\right]+\frac{1}{n_1}\text{Var}\left[Y_i(1)\right].

一个标准的中心极限定理可以用来验证这一点

\begin{aligned}\sqrt{n}\left(\hat{\tau}_{DM}-\tau\right)&\Rightarrow\mathcal{N}\left(0,V_{DM}\right), \\V_{DM}&=\text{Var}\left[Y_i(0)\right] \Big/ \mathbb{P}\left[W_i=0\right]+\text{Var}\left[Y_i(1)\right] \Big/ \mathbb{P}\left[W_i=1\right].\end{aligned}\quad(1.6)

最后,请注意,我们可以通过常规插件估计器来估计 VDM,为 τ 建立有效的高斯置信区间:

\lim_{n\to\infty}\mathbb{P}\left[\tau\in\left(\hat{\tau}_{DM}\pm\Phi^{-1}(1-\alpha/2)\sqrt{\widehat{V}_{DM}/n}\right)\right]=1-\alpha,\quad(1.7)

其中,Φ为标准高斯累积分布函数,

\widehat{V}_{DM}=\frac1{n_1-1}\sum_{W_i=1}\left(Y_i-\frac1{n_1}\sum_{W_i=1}Y_i\right)^2+\frac1{n_0-1}\sum_{W_i=0}\left(Y_i-\frac1{n_0}\sum_{W_i=0}Y_i\right)^2

从某种角度看,上述内容就是随机试验中估计平均干预效果所需要的全部内容。均值差估算器\hat{\tau}_{DM} 是一致的,可以进行有效的渐进推断;此外,该估算器的实现非常简单,很难 "作弊"(不择手段的分析师几乎不可能尝试不同的估算策略,并报告最接近他们想要的答案)。

另一方面,\hat{\tau}_{DM} 是否是使用数据的 "最优 "方法,即在给定样本量下提供最准确的 τ 值,这一点还很不明确。下面,我们将尝试看看是否/何时可以做得更好。

Example: The linear model

为了更好地理解 \hat{\tau}_{DM} 的行为,研究一下特殊情况是有帮助的。首先,我们考虑线性模型: 我们假设 (X_i,Y_i,W_i) 的生成方式为

Y_i(w)=c_{(w)}+X_i\beta_{(w)}+\varepsilon_i(w), \mathbb{E}\left[\varepsilon_i(w) \big| X_i\right]=0, \mathrm{Var}\left[\varepsilon_i(w) \big| X_i\right]=\sigma^2. (1.8)

在这里,\hat{\tau}_{DM} 并不使用 X_i;但是,我们可以根据 X_i 的分布来描述它的行为。在整个分析过程中,为简单起见,我们假设我们处于一个平衡的随机试验中,其中

\mathbb{P}\left[W_{i}=0\right]=\mathbb{P}\left[W_{i}=1\right]=\frac{1}{2}.

此外,我们假设(但不失一般性):

\mathbb{E}\left[X\right]=0,\quad\mathrm{and~define}\quad A=\mathrm{Var}\left[X\right].

假设 \mathbb{E}\left[X\right]=0 并不失一般性,因为我们今天要考虑的所有估计器都是平移不变的(当然,不能让分析师利用 \mathbb{E}\left[X\right]=0 的知识)。

在这种情况下,我们可以将 \hat{\tau}_{DM} 的渐近方差写成

\begin{aligned} V_{DM}& \begin{aligned}=\text{Var}\left[Y_i(0)\right] \Big/ \mathbb{P}\left[W_i=0\right]+\text{Var}\left[Y_i(1)\right] \Big/ \mathbb{P}\left[W_i=1\right]\end{aligned} \\ &=2\left(\mathrm{Var}\left[X_i\beta_{(0)}\right]+\sigma^2\right)+2\left(\mathrm{Var}\left[X_i\beta_{(1)}\right]+\sigma^2\right) \\ &&(1.9) \\ &=4\sigma^{2}+2\begin{Vmatrix}\beta_{(0)}\end{Vmatrix}_{A}^{2}+2\begin{Vmatrix}\beta_{(1)}\end{Vmatrix}_{A}^{2} \\ &=4\sigma^{2}+\begin{Vmatrix}\beta_{(0)}+\beta_{(1)}\end{Vmatrix}_{A}^{2}+\begin{Vmatrix}\beta_{(0)}-\beta_{(1)}\end{Vmatrix}_{A}^{2}, \end{aligned}

\left\|v\right\|_A^2=v^\prime Av.

这是τ的最佳估计器吗?

Regression adjustments with a linear model

如果我们假设是线性模型(1.8),那么我们很自然地想要使用它来进行更好的估计。请注意,给定这个模型,我们可以将该ATE写成

\tau=\mathbb{E}\left[Y(1)-Y(0)\right]=c_{(1)}-c_{(0)}+\mathbb{E}\left[X\right]\left(\beta_{(1)}-\beta_{(0)}\right).

这表明了一个普通的最小二乘估计量

\hat{\tau}_{OLS}=\hat{c}_{(1)}-\hat{c}_{(0)}+\overline{X}\left(\hat{\beta}_{(1)}-\hat{\beta}_{(0)}\right),\quad\overline{X}=\frac1n\sum_{i=1}^nX_i,

其中 (\hat{c}_{(w)}, \hat{\beta}_{(w)}) 是通过对W_{i}=w的观察结果运行OLS获得的(即,我们对处理单元和控制单元运行单独的回归)。关于OLS的标准结果表明(回想一下,wlog,我们使用 \mathbb{E}\left[X\right]=0 )

\sqrt{n_w}\left(\begin{pmatrix}\hat c_{(w)}\\\hat\beta_{(w)}\end{pmatrix}-\begin{pmatrix}c_{(w)}\\\beta_{(w)}\end{pmatrix}\right)\Rightarrow\mathcal N\left(0, \sigma^2\begin{pmatrix}1&0\\0&A^{-1}\end{pmatrix}\right).

特别地,我们发现\hat{c}_{(0)}, \hat{c}_{(1)}, \hat{\beta}_{(0)}, \hat{\beta}_{(1)}\overline{X}都是渐近独立的。然后,我们可以写

\begin{aligned}\hat{\tau}_{OLS}-\tau&=\underbrace{\hat{c}_{(1)}-c_{(1)}}_{\approx\mathcal{N}(0,\sigma^2/n_1)}-\underbrace{\hat{c}_{(0)}-c_{(0)}}_{\approx\mathcal{N}(0,\sigma^2/n_0)}+\underbrace{\overline{X}\left(\beta_{(1)}-\beta_{(0)}\right)}_{\approx\mathcal{N}\left(0,\left\|\beta_{(1)}-\beta_{(0)}\right\|_A^2/n\right)}\\&+\underbrace{\overline{X}\left(\hat{\beta}_{(1)}-\hat{\beta}_{(0)}-\beta_{(1)}+\hat{\beta}_{(0)}\right)}_{\mathcal{O}_P(1/n)},\end{aligned}

这就引出了中心极限定理

\begin{aligned}\sqrt{n}\left(\hat{\tau}_{OLS}-\tau\right)\Rightarrow\mathcal{N}\left(0,V_{OLS}\right),\quad V_{OLS}=4\sigma^2+\left\|\beta_{(0)}-\beta_{(1)}\right\|_A^2.\end{aligned}

特别要注意的是,V_{DM}=V_{OLS}+\left\|\beta_{(0)}+\beta_{(1)}\right\|_{A}^{2} ,因此OLS实际上有助于减少线性模型中的渐近误差。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/20589.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于FPGA 使用SPI FLASH固化时如何配置固化参数

关于FPGA 使用SPI FLASH固化时如何配置固化参数 EDA工具:Vivado 关于FPGA 使用SPI FLASH固化时如何配置固化参数一、引言二、如何设置固化参数:使用50M的速度 ,SPI为X4 ,以及bit压缩第一:点open implenment design第二…

安装软件缺少dll文件怎么办,分享多种解决dll问题的方法

在计算机使用过程中,我们经常会遇到安装软件时提示缺少dll文件的问题。这种情况通常会导致软件无法正常运行或启动。为了解决这个问题,我总结了以下五种方法,希望对大家有所帮助。 一,了解DLL文件是什么 动态链接库(D…

简单说说我对集成学习算法的一点理解

概要 集成学习(Ensemble Learning)是一种机器学习技术框架,它通过构建并结合多个学习器(也称为个体学习器或基学习器)来完成学习任务。 集成学习旨在通过组合多个基学习器的预测结果来提高整体模型的性能。每个基学习…

常见仪表盘指示灯的含义,这次够全了!

汽车是当前主要的交通工具之一,给人们的工作、生活提供了便利。大家在学会开车的同时,也得了解一些基本的汽车常识,可以及时的发现车辆的问题,并作出正确的判断,以此降低车辆的损耗和维修成本。其中最基本的&#xff0…

房产证上加名?手把手教你操作,省钱又省心!

随着《民法典》的实施,房产的权属问题愈发受到重视。夫妻双方及其亲属常希望能在房产证上增添自己的名字,以保障各自的权益。那么,房产证上到底能写几个名字呢?以下是对这一问题的详细解答。 一、房产证命名无固定限制 在购房时&…

民国漫画杂志《时代漫画》第39期.PDF

时代漫画39.PDF: https://url03.ctfile.com/f/1779803-1248636473-6bd732?p9586 (访问密码: 9586) 《时代漫画》的杂志在1934年诞生了,截止1937年6月战争来临被迫停刊共发行了39期。 ps: 资源来源网络!

SpringBoot注解--10--@Bean,对象注入的三种方法

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 Bean一、如何使用方法注解注意Bean 的命名规则,当没有设置 name 属性时,那么 bean 默认的名称就是方法名,当设置了 name 属性之后…

33【Aseprite 作图】树——拆解

1 树叶 画树叶真累啊,可以先画一个轮廓,细节一点点修 2 1 2 ;2 2 2 (横着横),这样一点点画树叶 填充颜色,用了喷雾工具 2 树干部分 轮廓部分,左边的是3 3 3 ;上下都是…

网页音频提取在线工具有哪些 网页音频提取在线工具下载

别再到处去借会员账号啦。教你一招,无视版权和地区限制,直接下载网页中的音频文件。没有复杂的操作步骤,也不用学习任何代码。只要是网页中播放的音频文件,都可以把它下载到本地保存。 一、网页音频提取在线工具有哪些 市面上的…

【数据结构】二叉树:简约和复杂的交织之美

专栏引入: 哈喽大家好,我是野生的编程萌新,首先感谢大家的观看。数据结构的学习者大多有这样的想法:数据结构很重要,一定要学好,但数据结构比较抽象,有些算法理解起来很困难,学的很累…

Transformer中的位置编码PE(position encoding)

Transformer中的位置编码PE(position encoding) 1.提出背景 transformer模型的attention机制并没有包含位置信息,即一句话中词语在不同的位置时在transformer中是没有区别的 2.解决背景 给encoder层和decoder层的输入添加了一个额外的向量Positional Encoding&a…

【专利 超音速】一种光伏检测系统

申请号CN202410053901.0公开号(公开)CN118032774A申请日2024.01.12申请人(公开)超音速人工智能科技股份有限公司发明人(公开)张俊峰(总); 叶长春(总); 许春夏 摘要 本发明公开一种光伏检测系统&#xff0…

iotdb时序库在火电设备锅炉场景下的实践【原创文字,IoTDB社区可进行使用与传播】

一.概述 1.1 说明 本文章主要介绍iotdb数据库在电站锅炉工业场景下,对辅助智能分析与预警的使用介绍。 【原创文字,IoTDB社区可进行使用与传播】 1.2 项目背景 随着人工智能算法在电力领域的发展,以及燃煤锅炉设备精细化调整需求的增加&…

数据结构——经典链表OJ(二)

乐观学习,乐观生活,才能不断前进啊!!! 我的主页:optimistic_chen 我的专栏:c语言 点击主页:optimistic_chen和专栏:c语言, 创作不易,大佬们点赞鼓…

chatgpt之api的调用问题

1.调用api过程中,出现如下报错内容 先写一个测试样例 import openaiopenai.api_key "OPEN_AI_KEY" openai.api_base"OPEN_AI_BASE_URL" # 是否需要base根据自己所在地区和key情况进行completion openai.ChatCompletion.create(model"g…

【intro】GNN中异构图(heterogeneous graph)综述

本篇博客内容是读两篇论文,两篇论文连接如下: Heterogeneous graph neural networks analysis: a survey of techniques, evaluations and applications A Survey on Heterogeneous Graph Embedding: Methods, Techniques, Applications and Sources …

瓦罗兰特国际服 外服游玩教程 瓦罗兰特外服下载注册游玩指南

瓦罗兰特国际服 外服游玩教程 瓦罗兰特外服下载注册游玩指南 瓦罗兰特作为当今游戏圈顶流的一款热门FPS。游戏,作为拳头游戏公司划时代的一款游戏。游戏不仅延续了传统FPS游戏的玩法,还添加许多新玩法,这也是游戏可以吸引大批量玩家的原因之…

基于电导增量MPPT控制算法的光伏发电系统simulink建模与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述 基于电导增量MPPT控制算法的光伏发电系统simulink建模与仿真。输出MPPT跟踪后的系统电流,电压以及功率。 2.系统仿真结果 3.核心程序与模型 版本:MAT…

cocos creator 3.x实现手机虚拟操作杆

简介 在许多移动游戏中,虚拟操纵杆是一个重要的用户界面元素,用于控制角色或物体的移动。本文将介绍如何在Unity中实现虚拟操纵杆,提供了一段用于移动控制的代码。我们将讨论不同类型的虚拟操纵杆,如固定和跟随,以及如…

视频汇聚平台EasyCVR对接GA/T 1400视图库结构化数据:人员/人脸、非/机动车、物品

在信息化浪潮席卷全球的背景下,公安信息化建设日益成为提升社会治理能力和维护社会稳定的关键手段。其中,GA/T 1400标准作为公安视频图像信息应用系统的核心规范,以其结构化数据处理与应用能力,为公安信息化建设注入了强大的动力。…