相関関係と因果関係について解説します。
この範囲は「データサイエンティストのためのスキルチェックリスト」の「データサイエンス力」項目No.7の解説になります。
多くの専門用語や公式が登場しますが丁寧に理解しやすく説明していきます。
本記事はデータサイエンスを研究されているIffat Maabさんによる英語の解説を翻訳しています。
Iffat Maab
東京大学大学院工学系研究科技術経営戦略学専攻(TMI)博士課程在学中。パキスタン、イスラマバード市出身
マーケターのためのデータサイエンスの時間とは?
こちらの講座では、一般社団法人データサイエンティスト協会様がリリースしている「データサイエンティストのためのスキルチェックリスト」に沿った解説を行っていきます。
「データサイエンティストのためのスキルチェックリスト」とは、データサイエンティストとして活躍するために必要なスキルが体系化されたものです。
このマーケターのためのデータサイエンスの時間に従って学習していくと、データサイエンティストに必要なスキルセットである「データサイエンス力」を一通り学習することが出来ます。
相関関係と因果関係の違いを説明できる
解答
相関関係は別の事象であるが一方が変化すれば他方も変化するような関係であり、因果関係は原因とそれによって生じる結果の関係である。
因果関係は依存関係があるが、相関関係は依存関係がないという違いがある。
解説
今回は相関関係と因果関係の2つが何を指すのか学びましょう。
2つとも○○関係という言葉であり似ているのですが、示す意味が全く異なっており注意が必要です。
因果関係
因果関係とは、事象の間に依存関係がある場合にのみ適用されます。
言い換えると、”原因”と”それによって生じる結果”の関係の事です。
下のように、「トレーニングをした」という事象が「100kgのバーベルを持ち上げられる」という事象を引き起こしたならば、それらは因果関係を持っています。
相関関係
一方、相関関係は別の事象であるが一方が変化すれば他方も変化するような関係のことです。
この関係では、一方の事象が他方の事象を引き起こすとは限りません。
例えば、下のように「トレーニングの頻度」と「持ち上げるバーベルの重量」という2つの別の事象を考えてみましょう。
トレーニングの頻度と持ち上げる重量という2つには関係性があることが分かります。
※こちらは相関図と呼ばれるものであり、詳しくは次回以降に解説します。
相関関係と因果関係の異なり
このように、相関関係と因果関係の2つは異なっています。
相関関係の一部として因果関係が存在しているというイメージが適切です。
マーケティング担当者、プロダクトマネージャー、データサイエンティスト、アナリストなどは、製品のある機能がユーザーの維持やエンゲージメントに影響を与えるかどうかを調べるなど、製品の成長のための意思決定に相関関係と因果関係を活用しています。
相関関係と因果関係を用いたデータ収集の例
例えば、Aさんは地元での携帯電話とノートパソコンの売上に関するデータを収集しました。
その結果、「携帯電話の販売台数が少ない」と「ノートPCの販売台数も少ない」という傾向にあり、
「携帯電話の販売台数が多い」と「ノートPCの販売台数も多い」という傾向にあることが分かりました。
これらの観察結果から、Aさんは携帯電話とノートパソコンの売上には正の相関があると結論づけました。
2つの変数xとyの間の正の相関は、実際にはxが増加するとyも増加すると定義されます。
参考文献
[9] https://blog.amplitude.com/causation-correlation
まとめ
以上が「データサイエンス力」のNo.7の解説になります。
統計学やデータ分析の初心者に向けて、四つの基本的な尺度について、より分かりやすく解説します。
次回はNo.8からの解説になります。1~271項目まで順に追って解説していくので、マーケターの皆さんは本シリーズを読んで、データサイエンスの世界に踏み出していきましょう。
English
Explain the difference between correlation and causality
Although correlation and causation seem similar, they have subtle differences. Correlation and causation can exist at the same time, but correlation does not implicate causation.
Causality
Causation only applies to cases where there is dependency between the events. For example, an action X causes outcome Y.
Correlation
On the opposite, correlation is simply a relationship (action X and action Y). Action X relates to action Y, however one event doesn’t necessarily cause the other event to happen.
Correlation and causation are often confused because the human brain likes to find patterns even when they do not exist. Marketers, product managers, data scientists, and analysts find correlation and causation useful for leveraging the decision making for product growth, such as finding whether certain features of a product/s influence user retention or engagement.
Purpose
For example, Ikram collected data on the sales of mobile phones and laptops in his hometown. He found that when mobile phone sales were low, laptop sales tended to be low and that when mobile phone sales were high, laptop sales tended to be high. From these observations,
- Ikram can conclude that sales of mobile phones and laptops are positively correlated. Positive correlation between two variables x and y is actually defined as when x increases, y also increases.
- Ikram can’t conclude that selling more mobile phones causes more laptops to be sold. It is likely that the increases in the sales of both mobile phones and laptops are caused by a third factor, an increase in income of employees, or launch of some new company brand!