「因果の証明」が難しい4つの理由

はじめに

「因果関係(causal relationship)」は、データだけから結論づけることは非常に難しい。さらに言うと、仮定を置いた上で結論づけることはできても、仮定を置かずに証明することは不可能である。

この記事では、筆者の考える「因果の証明が難しい理由」を解説していく。

(1) 交絡因子を取り除く必要があるため

まず「交絡因子(confounding factor)」とは、原因事象と関連しながらも、結果事象と因果関係を持つ因子である。

例えば、「Aという薬を飲んだら、熱が下がった。」という例において、「Aという薬を飲んで、十分な睡眠を取ったため、熱が下がった。」という可能性もある。この時、睡眠という交絡因子が絡んでいるため、必ずしもAという薬を飲んだため、熱が下がったという因果を結論づけることはできない。

このように、「未観測交絡因子」(観測しきれていない交絡因子)がないことが因果関係を示すための前提条件となるため、因果関係を示すことは難しい。

(2) 反実仮想が存在するため

次に、「反実仮想(counterfactual)」とは、「実際にはAをしたが、仮にAをしなかったとしたら」という実際の選択とは別の選択をとった場合を想定することを指す(「反事実」ともいう)。

先ほど例において、Aという薬を飲んだという条件と飲まなかった条件は同一個体において同時には成り立たない。因果分析では、この制約があることを前提として、原因の効果の差分を示す。ここで、同一個体に時間を空けて薬を飲んでもらうという考え方もあるが、その場合、それぞれの条件が同一であるということを前向きに示す必要がある。また、一つ目の条件で介入した結果が二つ目の条件で介入する時に交絡する可能性もあり、完全に介入効果がウォッシュアウトできたことを示す必要もある。

このように反実仮想を前提とすることは大きな制約である。

(3) 因果の方向性を示す必要があるため

三つ目の理由として、因果の方向性を示すことの難しさがある。

まず「双方向因果(causal relationship in both directions)」という両方向に因果が働いているモデルが存在する。例えば、Morita et al.(2005)は、「高齢郡において、うつ状態と運動の実施状況との間に双方向の因果関係を認めた。」という報告をしている。このように、うつ状態になれば、運動の実施状況が低下し、運動の実施状況が低下すると、うつ状態になりやすいというような非常に複雑なモデルになることがある。

このような複雑な関係を示すことは難しく、一部の因果推論の手法では一方向の因果であることを仮定する必要があるほどである。

(4) 統計的な過誤が生じる可能性があるため

最後に、因果関係は統計的に証明することが多く、この証明はp値を用いている場合、過誤が必ず生じてしまう。

ここでいう過誤は、因果関係があるという結論にはなったが、実際には因果関係がないという「第一種の過誤」と実際には因果関係があるのにその関係を検出することができない「第二種の過誤」に分かれる。この過誤を完全になくすことはできず、統計を用いることに伴う制約である。

この制約を理由に因果分析の結論が否定されることはアカデミアやビジネスの分野ではないが、この制約を意識をすることは誤った解釈につなげない上で重要である。

終わりに

因果の証明は難しいものの、制約ばかり考えても仕方ないと筆者は考えている。特にビジネス上のデータ駆動的な問題解決においては、すでに存在するデータから示唆を出す場合もある。

この時、データサイエンティストとして意識すべきもっとも大切なことは「適格な仮定を置き、適格な手法を選び、適格な解釈をする」ことである。

参考文献

コメントを残す

メールアドレスが公開されることはありません。

CAPTCHA