導入
データ分析をしていると、「相関があるのに予測が外れる」という経験はありませんか? その原因は、もしかしたら交絡かもしれません。 この記事では「交絡とは何か」「なぜ落とし穴になるのか」について、初心者でもわかるようにまとめました。
相関と因果のおさらい
まず、混同されやすい「相関」と「因果」を整理しましょう。
相関とは、2つの要素の間に何らかの関連性があり、一方が変化するともう一方も変化する関係のことです。一方、因果とは、一方の事象が「原因」となり、もう一方が「結果」として引き起こされる関係を指します。
つまり、相関は「2つの事象が連動して変化する関係」であるのに対し、因果は「原因と結果のつながり」です。相関があるからといって、必ずしも因果関係があるとは限りません。この「相関≠因果」という点が、データ分析における重要な前提となります。
交絡とは何か
では、なぜ相関があるのに因果でないことが起きるのでしょうか。その原因の一つが交絡です。
交絡とは、2つの変数の関係に影響を与える第3の変数(交絡因子)が存在することで、見かけ上の相関が生まれてしまう現象のことです。つまり、AとBに相関があるように見えても、実はCがAとBの両方に影響を与えているだけ、というケースです。
具体例で理解する
例1:アイスの売上と溺死事故
「アイスの売上が増えると溺死事故も増える」というデータがあったとします。しかしこれは、アイスが溺死事故を引き起こしているわけではありません。気温が高くなると、アイスの売上も増え、海やプールに行く人も増えるため、溺死事故も増えるのです。ここでの交絡因子は「気温」です。

例2:採用データと入社後のパフォーマンス
ある企業の採用データを分析したところ、「特定の大学出身者は入社後のパフォーマンスが高い」という相関が見つかったとします。しかしこれは、その大学の教育が優れているからではなく、もともと優秀な人材がその大学に集まりやすい、あるいはその企業がその大学を優遇して採用しているためかもしれません。交絡因子を考慮せずにモデルを作ると、本質的でない特徴を重要な予測因子として学習してしまう危険性があります。ここでの交絡因子は「もともとの能力や採用基準の偏り」です。

なぜ問題になるのか
交絡を考慮しないままデータ分析を進めると、さまざまな場面で誤った結論を招く可能性があります。
機械学習での影響:モデルが交絡を「学んで」しまう
交絡因子を考慮せずにモデルを作ると、本質的でない特徴を「重要な予測因子」として学習してしまう可能性があります。その結果、特定のデータには高い精度を示すものの、実際の場面では予測が外れるモデルができあがってしまいます。
医療・RWD研究での影響:治療効果を誤って評価してしまう
リアルワールドデータ研究では、患者背景の偏りが治療選択と結果の両方に影響を与えるため、交絡を考慮しないと治療の真の効果を歪めて評価してしまいます。これは医療現場での意思決定に直結するため、特に深刻な問題となります。
対処法の入口
交絡に対処する方法はいくつかありますが、ここでは代表的な2つを紹介します。
1つ目は層別解析です。データの中に異なる性質の集団が含まれている場合、その性質ごとにデータを分けて解析する方法です。例えば「性別」が交絡因子であれば、男性・女性それぞれのグループに分けて分析することで、交絡の影響を取り除くことができます。
2つ目は多変量解析です。複数の要因が複雑に絡み合うデータに対して、交絡因子を統計的にコントロールしながら、目的の関係性を明らかにする手法です。交絡因子をモデルに組み込むことで、その影響を取り除いた上で分析することができます。
なお、医療・RWD研究では傾向スコアという手法もよく使われます。
まとめ
交絡とは、2つの変数の関係に影響を与える第3の変数(交絡因子)が存在することで、見かけ上の相関が生まれてしまう現象です。
データ分析において「相関がある=因果関係がある」と思い込んでしまうと、誤った結論を導いてしまう可能性があります。しかし、交絡の存在に気づくことができれば、分析の精度や解釈の質は大きく変わります。
「なぜこの2つに相関があるのか?裏に別の要因が隠れていないか?」と問い続けることが、データ分析における第一歩です。

