はじめまして、データサイエンティストのますみです！

「因果関係（causal relationship）」は、データだけから結論づけることは非常に難しい。さらに言うと、仮定を置いた上で結論づけることはできても、仮定を置かずに証明することは不可能である。

この記事では、筆者の考える「因果の証明が難しい理由」を解説していく。

参考文献

(1) 交絡因子を取り除く必要があるため

まず「交絡因子（confounding factor）」とは、原因事象と関連しながらも、結果事象と因果関係を持つ因子である。

例えば、「Aという薬を飲んだら、熱が下がった。」という例において、「Aという薬を飲んで、十分な睡眠を取ったため、熱が下がった。」という可能性もある。この時、睡眠という交絡因子が絡んでいるため、必ずしもAという薬を飲んだため、熱が下がったという因果を結論づけることはできない。

このように、「未観測交絡因子」（観測しきれていない交絡因子）がないことが因果関係を示すための前提条件となるため、因果関係を示すことは難しい。

(2) 反実仮想が存在するため

次に、「反実仮想（counterfactual）」とは、「実際にはAをしたが、仮にAをしなかったとしたら」という実際の選択とは別の選択をとった場合を想定することを指す（「反事実」ともいう）。

先ほど例において、Aという薬を飲んだという条件と飲まなかった条件は同一個体において同時には成り立たない。因果分析では、この制約があることを前提として、原因の効果の差分を示す。ここで、同一個体に時間を空けて薬を飲んでもらうという考え方もあるが、その場合、それぞれの条件が同一であるということを前向きに示す必要がある。また、一つ目の条件で介入した結果が二つ目の条件で介入する時に交絡する可能性もあり、完全に介入効果がウォッシュアウトできたことを示す必要もある。

このように反実仮想を前提とすることは大きな制約である。

(3) 因果の方向性を示す必要があるため

三つ目の理由として、因果の方向性を示すことの難しさがある。

まず「双方向因果（causal relationship in both directions）」という両方向に因果が働いているモデルが存在する。例えば、Morita et al.（2005）は、「高齢郡において、うつ状態と運動の実施状況との間に双方向の因果関係を認めた。」という報告をしている。このように、うつ状態になれば、運動の実施状況が低下し、運動の実施状況が低下すると、うつ状態になりやすいというような非常に複雑なモデルになることがある。

このような複雑な関係を示すことは難しく、一部の因果推論の手法では一方向の因果であることを仮定する必要があるほどである。