※記事内に商品プロモーションを含むことがあります。
はじめに
因果推論は機械学習、医療、マーケティングなど様々な分野で使用されており、用語の揺らぎが大きいため、整理しました。
因果推論 (causal inference)
入力データ(インプット)と出力データ(アウトプット)から、その因果関係(原因とそれによって生じる結果との関係)を統計的に推定していく考え方のこと。
処置 (treatment)
出力データに影響を与える操作のこと。介入、割り当てとも呼びます。例として、病気の治療効果を推定したい場合では、治療することが「処置」となります。
処置群 (treatment group)
処置を行った集団のこと。実験群、介入群とも呼びます。
対照群 (control group)
処置を行わなかった集団のこと。統制群、コントロール群とも呼びます。
共変量 (covariate)
出力に影響を与えるデータの内、操作できない変数のこと。病気の治療の例では、年齢や体重などが共変量となります。
結果 (outcome)
出力のこと。病気の治療の例では、患者がどの程度(またはどの程度の期間で)快復したかが結果になります。
反事実 (counterfact)
処置をした、または処置をしなかった過去の出来事に対し、「実際とは反対の選択を取るとどうなっていたか」という仮定のこと。反実仮想とも呼びます。例えば、ある患者に治療を行った場合、治療していないシナリオが反事実となります。
平均処置効果 (average treatment effect, ATE)
注目する群全体における処置の効果。平均処置効果 (ATE) は次式で定義されます。
$$ATE := E[Y(1) - Y(0)]$$
ここで、$Y(1)$は処置群の結果、$Y(0)$は対照群の結果です。また、$E$は期待値を示します。病気の治療を例にとると、$Y(1)$は治療を受けた場合の健康状態、$Y(0)$は治療を受けなかった場合の健康状態とみなせます。
個別因果効果 (indivisual treatment effect, ITE)
ある個体に対する処置の効果のこと。$i$番目の個体の個別因果効果$D_i$は次式で定義されます。
$$D_i := Y_i(1) - Y_i(0)$$
ただし、一般に$D_i$を測定することは困難です。病気の治療の例にとると、ある患者が治療を受けた場合と受けなかった場合の両方の健康状態を同時には観測できないということです。
条件付き平均処置効果 (Conditional average treatment effect, CATE)
共変量(制御できない変数)$X$がある値$x$を取る場合に期待される処置効果のこと。条件付き平均処置効果 (CATE) は次式で定義されます。
$$CATE := E[D | X = x ] = E[Y(1) - Y(0) | X = x ]$$
病気の治療の例では、患者の年齢という共変量によって治療の効果が変わる場合、ある年齢における処置効果がCATEになります。
因果推論の手法
因果推論には以下のような手法があります。
- Meta-learners
- Doubly Robust Learning
因果探索 (causal search)
因果推論では、因果の向きを既知としていました。一方、因果探索は、因果の向きが不明な条件において、この向きを推定する考え方です。因果探索には以下のような手法があります。
- LiNGAM (Linear Non-Gaussian Acyclic Model)
- ベイジアンネットワーク
- SAM (Structural Agnostic Modelling)