【統計用語】疑似相関とは

疑似相関とは

疑似相関(Spurious correlation,見せかけの相関、擬似相関)とは、2つの事象に因果関係がないにも関わらず、見えない要因によってあたかも因果関係があるかのように見えることです。

“疑似“相関という名称ですが、相関自体は疑似ではなく存在しています。
相関自体はありますが、2変数の直接の因果関係ではなく、共通する別の要因による相関である点、理解しておきましょう。

疑似相関の例として、「アイスクリームの売上と水の事故」や「ある小学校の算数の点数と身長の高さ」、「各国のチョコレートの消費量とノーベル賞の受賞者数」といった場合などが挙げられます。

例えば、「年間におけるアイスクリームの売上と水難事故数は有意でかつ、高い相関関係にあった」という結果があり、一般的に考えて両者を結び付けるつながりがおかしい気はしますが、現実に相関係数は高いです。
しかし、さらに調査したところ、観測対象に気温の変動があることが判明しました。

実は、気温と年間におけるアイスクリームの売上の相関が高かったことと、気温と水難事故数の相関が高い結果、見かけ上、年間におけるアイスクリームの売上と水難事故数に有意な相関が見られただけだとわかりました。

このような現象を疑似相関といい、第3の変数(背後に潜む変数)”気温”を交絡因子(こうらくいんし; confounding factor)といいます。

疑似相関の原因

交絡因子の探索には統計学の専門性だけではなく、分析者の専門性やドメイン知識が生かされます。
このような場合は、交絡因子を気温としてアイスクリームの売上と水難事故数の偏相関係数を求めるとよいです。

統計学や機械学習を効率よく学ぶには?

統計学や機械学習を効率よく学ぶには、普段から統計学を用いて業務をしている現役のデータサイエンティストに質問できる環境で学ぶことです。
質問し放題かつ、体系的に学べる動画コンテンツでデータ分析技術を学びたい方は、オンラインで好きな時間に勉強できるAI Academy Bootcampがオススメです。受講料も業界最安値の35,000円(6ヶ月間質問し放題+オリジナルの動画コンテンツ、テキストコンテンツの利用可能)なので、是非ご活用ください。