PHONE APPLI Engineer blog

エンジニアブログ

相関の落とし穴について

こんにちは。株式会社 PHONE APPLI リサーチデベロップメント 森本と申します。

この記事では統計分析初学者の方に向けて、自分が勉強した分析手法を紹介します。
今回は、大切な概念である "相関" についてご紹介いたします。

はじめに

突然ですが、年収と早起きについて相関が見つかりました。
つまり年収が高い人ほど朝早く起きているということです!

このような話を聞いてあなたは早起きしてみたいと思いますか?

早起きをして年収をあげたいと思った方は、もしかしたら注意が必要かもしれません。
なぜ注意が必要なのか、相関が見つかるとはどのようなことなのかを説明します。

データの関係について

相関関係

“一方のデータが変わると他方もそれに応じて変化するような関係” を相関関係といい、
その関係がどのくらいあるのかを分析するのが相関分析です。

相関関係を表す指標に相関係数というものがあります。

相関係数の数式は以下です。


図1. 相関係数

この相関係数 -1.0~1.0 の範囲の値を取り、±1 を取るときはデータが一直線に並びます。


図2. 相関係数 イメージ (相関係数: -1, -0.5, 0, 0.5, 1)

相関関係を表す具体的な例としては ”残業が増えると生産性が下がる” などが挙げられます。
長時間ずっと集中できるという人は少ないですから、勤務時間が延びていくにつれ、
段々と業務の効率が悪くなっていくというような関係です。

因果関係

相関関係と混同してしまいがちなものに、因果関係があります。
因果関係は ”原因とその結果との関係” を指します。

相関関係はデータ間に “何かの関係” があることが分かり、
その関係の中でも ”原因と結果の関係” があるものが因果関係となります。

つまり、因果関係のあるものは相関関係があり、
相関関係があるものは必ずしも因果関係があるとは言えないという “相関関係 ⊃ 因果関係“ の図になっています。


図3. 相関関係と因果関係

因果関係の例としては “身長が伸びると体重が増える“ などが挙げられます。
身長が伸びると体の体積が増え、より体重が増えるというように、
身長が伸びるという原因と、その結果として体重が増える関係です。

注意点としては原因と結果が逆になると、成立するとは限らないということです。
例を使うと、いくら体重が増えても、身長が伸びるわけではないということです。

擬似相関

擬似相関とは、因果関係がないのに見かけ上あるように見えてしまうことです。
この擬似相関こそが相関関係の注意すべき落とし穴と言っても良いでしょう。

例としては “海水浴客とアイスクリームの売り上げ” が挙げられます。

海水浴客が増えるとアイスクリームの売り上げが上がるという相関が見つかったとしましょう。
では、アイスクリーム屋さんは海水浴客を呼び込むのに力を入れるべきなのかというとそうではありません。
おそらく、アイスクリーム屋さんがどれだけ海水浴場にお客さんを呼び込んでもアイスの売り上げは伸びないでしょう。

ではなぜこのような相関が見つかるのでしょうか。
これには気温という変数が隠れており、
海に行こうと思うくらい暑い日は、アイスクリームが食べたくなるという背景が考えられます。


図4. 擬似相関の例

このように擬似相関には見えない第3の変数があり、
前述の相関関係と因果関係を意識していないと、間違った結論を導いてしまうことが多々あります。

相関関係があるからと言って鵜呑みにせずに、
なぜそうなっているのかという背景まで考えるような習慣がとても大切です。

ちなみに…
第3の変数がなく偶然相関が生まれていることもあるので注意してください。

例としては "日本の少子化地球温暖化" が挙げられます。
この2つは直接的に関わってはいませんが、時間が経つにつれて両者とも顕著になっていく傾向が見られます。

最後に

今回は相関や因果関係についてご紹介いたしました。

相関分析は基礎的な部類にはなりますが、
高度な数学や難しい手法の前提知識となることが多いので、この期に筆をとらせていただきました。

基礎的とは言ってもかなり奥が深く、重要な概念ですので既にご存知の方も
この期に再確認してみてはいかがでしょうか。

相関係数Python で実装する際は、
numpy.corrcoef() 関数や pandas.DataFrame.corr() メソッドがありますので是非遊んでみてください!

ちなみに冒頭の話は、年収が高い人は高齢の方が多く、生物学的に朝目覚めるのが早くなることから生まれる、第3の変数に "年齢" を持つ擬似相関でした。
ただし、本当にこの関係しかないのか、早起きと年収は全く関係ないのかというと、そうとは限りません。
もちろん、年収を上げるために早起きするのがダメというわけでは全くありません。

本当に重要なのは、与えられた情報を鵜呑みにせず、自分で背景を考え、決断するという部分です。
自分なりに解釈してみてから早起きについて検討してみてください。

早起きして冴えた頭なら、足元の落とし穴が見つかるかもしれません。


PHONE APPLIについて

phoneappli.net
phoneappli.net