マーケターのためのデータサイエンス講座 第2回

第2回解説範囲

マーケターのためのデータサイエンス講座 第2回です。この講座では、データサイエンティスト協会様がリリースしている「データサイエンティストのためのチェックリスト」に沿った解説を行っていきます。今回、「データサイエンス力」項目のスキルカテゴリが統計数理基礎である、No.8からNo.13までの解説になります。今回も多くの専門用語や公式が登場しますが丁寧に理解しやすく説明していきます。

本記事はIffat Maabさんによる英語の解説を翻訳しています。

 

Iffat Maab

東京大学大学院工学系研究科技術経営戦略学専攻(TMI)博士課程在学中。パキスタン、イスラマバード市出身。


(No. 8)  標準正規分布の分散と平均がいくつかわかる

標準正規分布とは、平均がゼロ、分散が単位の分布で、確率密度関数(pdf)と分布関数で与えられます。

正規分布はベル型をしており、平均値を中心に対称となっています。

正規分布は、マイナスの無限大からプラスの無限大まであります。

基本的に経済学者や統計学者は、データを数字ではなく数値で表現したいと考えています。平均は、データの中心傾向を示す指標です。統計学者は、データの分散を確認するために、2番目のパラメータである分散を使用します。

 

原文

You can see some variances and means of the standard normal distribution

A standard normal distribution is a distribution with zero mean  and unit variance , given by the probability density function (pdf) and distribution function

The normal distribution is bell shaped and is symmetric around the mean. 

Normal distribution runs from minus infinity to the positive infinity. 

Economists and statisticians often want to describe data in terms of numbers rather than figures. The mean (or average) is a measure of central tendency of the data. A second parameter which is a variance is used by statisticians to see the dispersion of the data. 

References

[8]https://slideplayer.com/slide/7828801/

[8]https://saylordotorg.github.io/text_microeconomics-theory-through-applications/s21-22-mean-and-variance.html

 

(No. 9)  相関関係と因果関係の違いを説明できる

相関関係と因果関係は似ているようで微妙な違いがあります。相関関係と因果関係は同時に存在することができますが、相関関係は因果関係を意味するものではありません。

因果関係は、事象の間に依存関係がある場合にのみ適用されます。例えば、行動Xが結果Yを引き起こすような場合です。

反対に、相関関係は単なる関係です。行動Xは行動Yと関連していますが、一方の出来事が他方の出来事を引き起こすとは限りません。

相関関係と因果関係がよく混同されるのは、潜在的に人間の脳というものがパターンが存在しない場合でも関係性を見つけようとしているからです。

マーケティング担当者、プロダクトマネージャー、データサイエンティスト、アナリストは、製品のある機能がユーザーの維持やエンゲージメントに影響を与えるかどうかを調べるなど、製品の成長のための意思決定に相関関係と因果関係を活用することができます。

 

原文

Explain the difference between correlation and causality

Although correlation and causation seem similar but they have subtle differences. Correlation and causation can exist at the same time, but correlation does not implicate causation. Causation only applies to cases where there is dependency between the events. For example, an action X causes outcome Y. On the opposite, correlation is simply a relationship. Action X relates to action Y, however one event doesn’t necessarily cause the other event to happen.

Correlation and causation are often confused because the human brain likes to find patterns even when they do not exist. Marketers, product managers, data scientists, and analysts will find correlation and causation useful for leveraging the decision making for product growth, such as finding whether certain features of a product/s influence user retention or engagement.

References

[9] https://blog.amplitude.com/causation-correlation

 

(No. 10) 名義尺度、順序尺度、間隔尺度、比例尺度の違いを説明できる

データの統計分析を行うためには,量的データと質的データを分類するために,異なる水準の測定尺度が使用されます。基本的な測定尺度の水準には名義尺度、順序尺度、間隔尺度、比例尺度があります。

名義尺度

名目尺度は単純で、特定の順序ではなく名前やラベルで区別することを意味します。例えば、「どの飲み物が好きですか」という問いに対して、

  1. 緑茶  2. コーヒー  3.ミルク

というような尺度です。

順序尺度

順序尺度は、満足度、好感度、痛みなどの記述を測定します。飲み物の例では、人がどれだけその飲み物に満足しているか、または好きかを確認したい場合、順序尺度が使用されます。 

あなたはコーヒーがどのくらい好きですか?

l とても好き(5) l あまり好きではない(4)

 l どちらでもない(3) l 時々(2) l 好きではない(1)

間隔尺度

間隔尺度は、一定の間隔の大きさが使用される数値スケール値として使用されます。摂氏と華氏の温度測定はこの尺度の良い例の一つです。例えば、時間軸の測定や暦年などがこれに該当します。

具体的には、以下のような質問があります。 

「あなたの年齢は何歳ですか? あなたの地域の気温はどのくらいですか?」

のような問いの答えが間隔尺度です。

比例尺度

比例尺度は、変数の順序を伝えるだけでなく、変数間の差を作る変数測定尺度として定義されます。

例えば、「あなたの給料はいくらですか?」に対して、

l 100,000未満 l 100,001〜150,000 l 150,001〜200,000 l 200,000以上

といった尺度です。

測定尺度にもこのような4つの違いがあるのです。

 

原文

Explain the difference between nominal scale, ordinal scale, interval scale, and proportional scale

In order to do statistical analysis of the data, different levels of measurements are used to classify quantitative and qualitative data. The fundamental levels of measurement scales involve nominal, ordinal, interval and proportional scale.

Nominal scale

The nominal scale is simple, it means assigning names or labels with no specific order. For example, which drink do you like?

  1.     Green tea  2.     Coffee  3.     Milk

Ordinal Scale

Ordinal scale measures the description of the level of satisfaction, likeness, pain etc. For the given example of the drink, if you want to check how much a person is satisfied or likes the drink, ordinal scale is used. 

How much do you like coffee?

l  Very much (5) l  Not so much (4) l  Neutral (3) l  Sometimes (2) l  Don’t like (1)

Interval scale

The interval scale is used as a numerical scale value in which a constant interval size is used. Temperature measurements in the Celsius and Fahrenheit scale is one of a good example of this scale. For example, time scale measurements and calendar years fall under this category.

Questions like: What is your age? How much is the temperature in your area?

Ratio scale

Ratio scale is defined as a variable measurement scale that not only tells the order of the variable but also makes the difference between the variables.

For example, what is your salary?

l  Less than 100,000 l  100,001 to 150,000 l  150,001 to 200,000 l  More than 200,000

 

(No. 11) 一般的な相関係数(ピアソン)の分母と分子を説明できる

相関関係とは、あるものが他のものをどのように変化させるかという関係を示すものです。これは数学の抽象的な概念であります。それは次のように示されます。

rは相関係数で、決定係数 r2と直接関係しています。

rの符号は、推定傾斜係数b1の符号に依存する。

  • b1が負であれば、rは負の符号をとります。
  • b1が正であれば、rは正の符号をとります。

このことから、推定傾きと相関係数 r は常に同じ符号を持つことがわかります。また、r2は0から1の間の値をとるのに対し、相関係数rは常に-1から1の間の数値をとります。

rの利点の一つは、単位がないことで、研究者は単位やスケールの異なるデータセットに相関係数を簡単に使用することができます。このことは、rの別の計算式によって、次のように容易に理解することができます。

 

原文

Explain the denominator and numerator of a general correlation coefficient (Pearson)

Correlation tells a relation about how one thing changes another. It is an abstract math concept. It is denoted as:

r’ is the correlation coefficient which is directly related to the coefficient of determination ‘r2’. 

The sign of r depends on the sign of the estimated slope coefficient b1

  • If b1 is negative, then r takes a negative sign.
  • If b1 is positive, then r takes a positive sign.

This shows that the estimated slope and the correlation coefficient r always share the same sign. Also, r2 has a value between 0 and 1, whereas the correlation coefficient r is always a number between -1 and 1.

One advantage of r is that it is unitless, allowing researchers to easily use correlation coefficients on different data sets with different units or scales. This can easily be understood by an alternative formula for r, as:

References

[11] https://online.stat.psu.edu/stat462/node/96/

 

(No. 12) 代表的な確率分布の特徴を5つ以上説明できる

確率分布とはある事象の可能性を示すものです。通常、統計学者は確率を記述するのにこの表記法を使用します。

 p(x)=ある確率変数が特定の値xをとる可能性。 確率分布の特徴は以下の通りです。

  1. 確率のすべての可能な値の合計は1に等しい。
  2. 確率の範囲の値は常に0から1の間でなければならない。最も低い確率は1、最も高い確率は1である。
  3. 確率論や統計学では、確率分布とは、ある実験で起こりうるさまざまな結果の発生確率を示す数学的な関数である。確率分布は、ランダムな現象を、そのサンプル空間と事象の確率の観点から数学的に記述したもの。
  4. 離散的な確率関数は、確率質量関数とも呼ばれ、離散的な数の値を取ることができる。例えば、コイントスやイベントのカウントは離散的な関数である。
  5. 確率分布は、確率変数の値の分散を表す。従って、変数の種類によって確率分布の種類が決まります。1つの確率変数に対して、統計学的には以下の2種類の分布に分けられる。
  1. 離散変数に対する離散確率分布
  2. 連続変数の確率密度関数

 

原文

 Explain 5 or more characteristics of typical probability distributions

Probability distributions tell the likelihood of an event. Usually statisticians use this notation to describe probability:

 p(x) = the likelihood that a random variable takes a specific value of x. Following are the characteristics of probability distributions:

  1. The sum of all possible values of a probability is equal to 1.
  2. The probability range value must be always between 0 and 1. The lowest probability while 1 shoes the highest probability value.
  3. In probability theory and statistics, a probability distribution is the mathematical function that gives the probabilities of occurrence of different possible outcomes for an experiment. It is a mathematical description of a random phenomenon in terms of its sample space and the probabilities of events.
  4. Discrete probability functions are also known as probability mass functions and can assume a discrete number of values. For example, coin tosses and counts of events are discrete functions.
  5. Probability distributions describe the dispersion of the values of a random variable. Consequently, the kind of variable determines the type of probability distribution. For a single random variable, statisticians divide distributions into the following two types:
  1. Discrete probability distributions for discrete variables
  2. Probability density functions for continuous variables

References

[12]https://statisticsbyjim.com/basics/probability-distributions/#:~:text=General%20Properties%20of%20Probability%20Distributions&text=The%20sum%20of%20all%20probabilities,values%20of%20a%20random%20variable

(No. 13) 変数が量的、質的どちらの場合の関係の強さも算出できる

定量データ

量的データとは、量や値に関する情報を指します。例えば、ある通貨に含まれるコインの総数や、瓶の中に入っているキャンディーの数などが挙げられます。

定性データ

定性データとは、観察はできるが測定はできない状況に関する記述的なデータです。例えば、言語、企業内のコンピュータシステムの仕様などです。

インサイト

市場規模、人口統計、ユーザー嗜好などの定量的な調査から得られるデータは、ビジネス上の意思決定のための重要な情報となります。一方、定性調査では、ユーザーのニーズ、行動パターン、顧客維持、ユースケースなど、製品の設計において貴重なデータが得られます。このように、定量的なアプローチと定性的なアプローチにはそれぞれ強みがあり、それらを組み合わせることでメリットを得ることができます。

 

原文

The strength of the relationship can be calculated whether the variable is quantitative or qualitative.

Quantitative data

Quantitative data includes the information about quantities or values. For example, the total number of coins in any given currency, the number of candies in a jar, etc. 

Qualitative data

Qualitative data is descriptive, and regards situations which can be observed but not measured. For example, language, the specifications of computer systems in a company, etc.

Insights

Data from quantitative research such as market size, demographics, and user preferences provide important information for business decisions. Qualitative research provides valuable data in the design of a product including information about user needs, behavior patterns, customer retention and use cases. Hence, quantitative and qualitative approaches have strengths and each can benefit from combining them with one another.

References

[13]https://www.uxmatters.com/mt/archives/2012/09/strengths-and-weaknesses-of-quantitative-and-qualitative-research.php


 

おわりに

以上が「データサイエンス力」のNo.8 から No.13までの解説になります。

次回はNo.14からの解説になります。1~180項目まで順に追って解説していくので、マーケターの皆さんは本シリーズを読んで、データサイエンスの世界に踏み出していきましょう。

2021年より、デジマールに入社。English speaker,  I like travelling as it gives me a whole new perspective of life and way of thinking.

中野将志

2021年より、デジマールに入社。English speaker, I like travelling as it gives me a whole new perspective of life and way of thinking.

広告運用代行や各種支援について、
お気軽にご相談ください。
デジマールのマーケティングノウハウをご提供します。

お問い合わせはこちら