【统计】Causal Inference
原文传送门
http://www.stat.cmu.edu/~larry/=sml/Causation.pdf
过程
一、Prediction 和 causation 的区别


现实中遇到的很多问题实际上是因果问题,而不是预测。
因果问题分为两种:一种是 causal inference,比如给定两个变量 X、Y,希望找到一个衡量它们之间因果关系的参数 theta;另一种是 causal discovery,即给定一组变量,找到他们之间的因果关系。对于后面这种 causal discovery,notes 里面说它在统计上是不可能的。
数据有两种产生途径:一种是通过有意控制、随机化的实验得到的;一种是通过观测数据得到的。前一种方式能够直接做 causal inference;后一种方式需要另外知道一些先验知识,才能在上面做 causal inference。
对因果关系描述的数学语言:一种是 counterfactuals,一种是 causal graph;还有一种和 causal graph 相近的 structural equation models。
Correlation is not causation
预测问题可以写为

它表示的是,如果我们观察到 X=x,预测 Y。而因果推断关系的是

它表示我们如果把某个变量 X 设置为 x,那么 Y 会是多少。数学上表示出来就是

一个简单的例子『睡眠超过 7 小时的人』(X)『生病少』(Y),只是代表 X 和 Y 之间有关联性,并不代表如果强制一个人睡眠超过 7 小时,ta 就能够生病少。因为可能『身体好的人』容易『睡眠超过 7 小时』,同时 ta 也『生病少』;但是一个本来身体不好的人,强制 ta 睡眠多,ta 可能也生病不会少。
Notes 里面想要说明的结论是:因果关系可以从随机化的实验中得到;但是很难从观察到的数据中得到。
另外一个例子说明 correlation 和 causation 的区别
考虑数据是由一段程序生成的:

估计 correlation

当我们研究因果关系的时候,我们是想知道,如果『设置』Y=y,会怎样引起 Z 的分布;该过程可以用如下程序模拟

在这种情况下,我们再统计 Z=z 占总体样本的比例,即

二、Counterfactuals
考虑一个 treatment X,和一个 outcome Y。我们能观察到的是一些数据

假设 X 取值 0 或者 1,Y 也取值 0 或者 1。引入变量

这两个变量也叫做 potential outcome 或者 counterfactuals,因为如果在数据中观察到 X=0,就只能观察到

而我们关心的

定义

为 mean treatment effect,它可以被看做是一个衡量因果关系的参数;如果它大于零,表示我们设置 X=1 会在期望上增大 Y(这是一个因果推断)。
文章下面给出了一个定理,说明不可能从数据里面估计出

其中 uniformly consistent estimator 的定义是

其实这很好理解,可以构造两个数据集,它们有不同的
那么应该如何估计
三、用随机化来估计因果关系
如果我们能够随机设定 X 的值,使得 X 和


可以这么做最主要的原因就是当 X 和

总结来说,在完全随机的情况下(X 和
【注】Randomization 并不意味着 X 的选取要是 uniformly random(比如一半选 0,一半选 1),可以令 X 为任意分布,只要它和
四、Adjusting for Confounders
有些时候我们没法做实验,只能从可以观察的数据中来估计。比如,研究抽烟(X)和肺癌(Y)之间的因果关系,不可能故意选人去让他抽烟或者不抽烟。那么应该如何找到其中的因果关系呢?
Causal inference in observational studies is not possible without subject matter knowledge
注意到,观察到的数据中不能假设 X 和

因此,实际情况是吃 VC 和健康之间没有因果关系,即
Use confounding variables
虽然在数据中 X 和

下面的定理就是说,如果 能够观察到这样的 confounding variable,那么也能够做因果推断。


证明过程也比较好理解,因为在 Z 给定之后 X 和

这个方法叫做 adjusting for confounders,同时也把这上面的
Intuitive 地来说,拿航空公司票价(X)和销量(Y)的例子来说,它们可能受到节假日(Z)的影响,节假日的时候(Z=1)票价高,销量也大。要搞清楚其中的因果关系,就需要分别在是节假日(Z=1)和非节假日的时候(Z=0)统计 X、Y 的关系。
The usual bias-variance tradeoff does not apply
Notes 里面提到,在估计
对于前面这个离散的例子来说,可以对

对于连续的情形类似地,有

总结:如果 1)线性模型正确;2)所有的 confounding variables 都包含到回归方程中了,那么 x 前面的系数就表示 x 的 causal effect。
五、Causal Graphs
Causal graph 是一个有向无环图(DAG),表明了各个变量之间的联合概率分布

下面举例说明,在给定一个 causal graph 之后,如何做因果推断。考虑下面一个 causal graph,目标是求

首先,可以看出该 causal graph 提供的信息为
接下来,由于考虑的是设定 X 的数值的影响,因此构建一个新图
最后,该概率分布下的数值就是因果推断的结果

在

和 adjusting for confounder 方法的等价性
比如还是在

其结果和 adjusting for confounder 方法一致。
和 randomized experiment 方法的等价性
当 X 的选取是随机时,就没有从 Z 到 X 的箭头了,因此直接在概率图上计算可以得到
Causal graph 和 probability graph 的区别
举例说明,比如下雨(Rain,R)和湿草坪(Wet Lawn,W)是不相互独立的, 即
对于下两种 DAG,它们都是合理的 probability graph,即对于任意的联合概率分布

分析

因此得到
六、Causal Discovery 是不可能的
下面想说明的是在不做 randomized experiment 并且也观察不到所有 confounders 时,研究两个变量之间是否有因果关系是不可能的。
考虑一个最简单的情形,就是研究『 X 是否引起 Y(X、Y 之间是否有因果关系)』;同时能够肯定地排除掉『Y 引起 X 』的情形(比如,时间先后关系,发生在后面的不可能引起发生在前面的)。考虑可能的 confounding variable U,它们之间可能的关系有如下八种。

如果我们只能观察到 X、Y 的数据,能做的是估计
情况 8 也能够引起
因此,要想得出结论得出结论 X 和 Y 之间没有因果关系,还必须限定 faithfulness。

Notes 后面还讲了,总存在一个 faithful 的分布使得在样本足够多的时候,产生足够大的 type I error。