交絡とは、データ分析で必ず出会う落とし穴について詳しく解説

2026年6月15日

導入

データ分析をしていると、「相関があるのに予測が外れる」という経験はありませんか？その原因は、もしかしたら交絡かもしれません。この記事では「交絡とは何か」「なぜ落とし穴になるのか」について、初心者でもわかるようにまとめました。

相関と因果のおさらい

まず、混同されやすい「相関」と「因果」を整理しましょう。

相関とは、2つの要素の間に何らかの関連性があり、一方が変化するともう一方も変化する関係のことです。一方、因果とは、一方の事象が「原因」となり、もう一方が「結果」として引き起こされる関係を指します。

つまり、相関は「2つの事象が連動して変化する関係」であるのに対し、因果は「原因と結果のつながり」です。相関があるからといって、必ずしも因果関係があるとは限りません。この「相関≠因果」という点が、データ分析における重要な前提となります。

交絡とは何か

では、なぜ相関があるのに因果でないことが起きるのでしょうか。その原因の一つが交絡です。

交絡とは、2つの変数の関係に影響を与える第3の変数（交絡因子）が存在することで、見かけ上の相関が生まれてしまう現象のことです。つまり、AとBに相関があるように見えても、実はCがAとBの両方に影響を与えているだけ、というケースです。

具体例で理解する

例1：アイスの売上と溺死事故

「アイスの売上が増えると溺死事故も増える」というデータがあったとします。しかしこれは、アイスが溺死事故を引き起こしているわけではありません。気温が高くなると、アイスの売上も増え、海やプールに行く人も増えるため、溺死事故も増えるのです。ここでの交絡因子は「気温」です。

例2：採用データと入社後のパフォーマンス

ある企業の採用データを分析したところ、「特定の大学出身者は入社後のパフォーマンスが高い」という相関が見つかったとします。しかしこれは、その大学の教育が優れているからではなく、もともと優秀な人材がその大学に集まりやすい、あるいはその企業がその大学を優遇して採用しているためかもしれません。交絡因子を考慮せずにモデルを作ると、本質的でない特徴を重要な予測因子として学習してしまう危険性があります。ここでの交絡因子は「もともとの能力や採用基準の偏り」です。