目录
The average treatment effect
Difference-in-means estimation
IID Sampling and Population Asymptotics
Example: The linear model
Regression adjustments with a linear model
随机对照试验(RCT)是统计因果推论的基础。如果有的话,从随机对照试验中得出的证据通常被认为是金标准证据;即使由于伦理或实际原因无法进行随机对照试验,观察性研究的质量通常也是根据观察性研究与随机对照试验的近似程度来评估的。
今天的讲座将从潜在结果模型的角度来估算 RCT 的平均治疗效果,并讨论回归调整在因果效应估算中的作用。平均治疗效果完全通过随机化(或实验设计)确定。回归调整可用于减少方差,但回归模型在确定平均治疗效果方面不起任何作用。
The average treatment effect
我们通过潜在的结果来定义一种治疗的因果效应。对于w∈{0,1}的二元治疗,我们定义了潜在的结果Yi (1)和Yi (0)对应于第i个受试者的结果他们是否分别接受过治疗。治疗对第i个单位的因果效应是
因果推论的根本问题在于,只能给给定个体分配一种干预,因此只能观察到 Yi(0) 和 Yi(1) 中的一种。因此,永远无法观测到 ∆i。
现在,尽管 ∆i 本身从根本上说是不可知的,但我们可以(也许是显著地)利用随机实验来了解 ∆i 的某些特性。特别是,大型随机实验可以让我们恢复平均干预效果(ATE)
为此,假设我们观察到n个独立且同分布的样本(Yi,Wi)满足以下两个性质:
那么,均值差估计器
对平均治疗效果是无偏不倚和一致的。
Difference-in-means estimation
τDM 的统计特性很容易建立。我们随机干预分配假设的一个关键结果是,在所有潜在结果 和 n1 的条件下,所有单位都以相同的概率接受干预:
因此,对于治疗单位的平均结果,我们得到
而对照组的平均值也有类似的结果。因此,我们可以看到
换句话说,仅仅由于随机化,均值差估计器对研究中 n 个单位潜在结果的平均差异是无偏的。这个量 通常称为样本平均干预效果。
IID Sampling and Population Asymptotics
无偏性结果(1.5)在潜在结果的任何实现条件下都成立,这意味着,在无条件的情况下、
此外,考虑到 IID 采样,我们还可以将方差写成
一个标准的中心极限定理可以用来验证这一点
最后,请注意,我们可以通过常规插件估计器来估计 VDM,为 τ 建立有效的高斯置信区间:
其中,Φ为标准高斯累积分布函数,
从某种角度看,上述内容就是随机试验中估计平均干预效果所需要的全部内容。均值差估算器 是一致的,可以进行有效的渐进推断;此外,该估算器的实现非常简单,很难 "作弊"(不择手段的分析师几乎不可能尝试不同的估算策略,并报告最接近他们想要的答案)。
另一方面, 是否是使用数据的 "最优 "方法,即在给定样本量下提供最准确的 τ 值,这一点还很不明确。下面,我们将尝试看看是否/何时可以做得更好。
Example: The linear model
为了更好地理解 的行为,研究一下特殊情况是有帮助的。首先,我们考虑线性模型: 我们假设 的生成方式为
在这里, 并不使用 ;但是,我们可以根据 的分布来描述它的行为。在整个分析过程中,为简单起见,我们假设我们处于一个平衡的随机试验中,其中
此外,我们假设(但不失一般性):
假设 并不失一般性,因为我们今天要考虑的所有估计器都是平移不变的(当然,不能让分析师利用 的知识)。
在这种情况下,我们可以将 的渐近方差写成
这是τ的最佳估计器吗?
Regression adjustments with a linear model
如果我们假设是线性模型(1.8),那么我们很自然地想要使用它来进行更好的估计。请注意,给定这个模型,我们可以将该ATE写成
这表明了一个普通的最小二乘估计量
其中 是通过对的观察结果运行OLS获得的(即,我们对处理单元和控制单元运行单独的回归)。关于OLS的标准结果表明(回想一下,wlog,我们使用 )
特别地,我们发现和都是渐近独立的。然后,我们可以写
这就引出了中心极限定理
特别要注意的是, ,因此OLS实际上有助于减少线性模型中的渐近误差。