マーケターのためのデータサイエンス講座 第1回

第1回解説範囲

マーケターのためのデータサイエンス講座 第1回です。今回から、データサイエンティスト協会様がリリースしている「データサイエンティストのためのチェックリスト」に沿った解説を行っていきます。第1回では、「データサイエンス力」項目のスキルカテゴリが統計数理基礎である、No.1からNo.7までの解説になります。多くの専門用語や公式が登場しますが丁寧に理解しやすく説明していきます。

本記事はIffat Maabさんによる英語の解説を翻訳しています。

 

Iffat Maab

東京大学大学院工学系研究科技術経営戦略学専攻(TMI)博士課程在学中。パキスタン、イスラマバード市出身。


(No. 1) 1+4+9+16+25+36をΣを用いて表せる

こちらの問題はΣを用いた計算方法についてです。Σとは「総和」を意味します。

Σを用いた計算の例として、x0, x1, x2から x(n)までの数字を扱ってみましょう。この式ではx0からx(n)までの値の「総和」が計算されています。

Σについて理解したところで、ようやく「1+4+9+16+25+36をΣを用いて表せる」を解いていきましょう。

上記の例に対応させると、x0 = 1, x1 = 4, x2 = 9, x4 = 16, x5 = 25, x6 = 36 となります。

x = Σ (x0 + x1 + x2 + x3 + x4 + x5 + x6)

x = Σ (1 + 4 + 9 + 16 + 25 + 36)

x = 91

このようにして、答えは91となります。

 

原文

1 + 4 + 9 + 16 + 25 + 36 can be expressed using Σ

Let x0, x1, x2, up to x(n) be the numbers in a sample. The summation

is calculated by taking the sum Σ of all values of a given sample as shown in the formula

For the particular example of this question, x0 = 1, x1 = 4, x2 = 9, x4 = 16, x5 = 25, x6 = 36 hence the summation will be calculated as

x = Σ (x0 + x1 + x2 + x3 + x4 + x5 + x6)

x = Σ (1 + 4 + 9 + 16 + 25 + 36)

x = 91

 

(No. 2) log a(x) の逆関数を説明できる

この問題はlogについてです。

log(対数)とは指数の逆関数です。つまり、ある数xの対数とは、その数xを生み出すために、別の一定の数である基数aを上げなければならない指数(べき乗=m)なのです。

例えば、1000=10×10×10=10^3なので、1000の対数基数10は3、つまりlog10(1000)=3となる。xの対数を基数aとすると、log a (x)、または括弧を付けずにlog a x、あるいは10進数を扱うときなど混乱を招かない場合には基数を明示せずにlog xと表記することもあります。

logがxの関数で底aがmの値を持っている方程式と仮定しましょう。

xについてこの方程式を解くとになります。

 

原文

Explain the inverse function of log a (x)

In mathematics, the logarithm is the inverse function to exponentiation (power). That means the logarithm of a given number x is the exponent to which another fixed number, the base a, must be raised (power = m), to produce that number x. In the simplest case, the logarithm counts the number of occurrences of the same factor in repeated multiplication.

For example:

Since 1000 = 10 × 10 × 10 = 10^3, the “logarithm base 10 of 1000 is 3, or log 10 (1000) = 3. The logarithm of x to base a is denoted as log a (x), or without parentheses, log a  x, or even without the explicit base, log x, when no confusion is possible like when working with decimal numbers.

Let’s assume that log is a function of x with the log equation shown in the equation below with the base a having a value of m.

The process for solving it for x means the which resolves as

References 

[2_1] https://en.wikipedia.org/wiki/Logarithm#:~:text=In%20mathematics%2C%20the%20logarithm%20is,to%20produce%20that%20number%20x.

(No. 3) 順列と組合せの式をP、C、m、nを用いて表せる

ある集合の要素を部分集合の形で並べる方法は、「順列」と「組み合わせ」によって行うことが出来ます。正確には、数学では、

組み合わせ
順番が問題にならないときは「組み合わせ」です。


私にはBilal、Haleema、Nomanの3人の兄弟がいます。しかし、「組み合わせ」では順番は気にしません。

組み合わせの公式

一度に「r」個の要素を取る「n」個の要素の組み合わせの数は、次の公式によって決定されます。

順列
順番が問題になる場合は「順列」です。


例えば、私の携帯電話のパスワードは3478であるとしましょう。ここでは、パスワードは正確に3-4-7-8でなければならず、3487やその他のパスワードの配列では解除できないので、「順序」が重要です。

順列の公式

「n」個の要素を「r」個ずつ組み合わせた場合の順列の数は、次の公式で求められます。

順列と組み合わせは、統計学、通信ネットワーク、暗号学、ネットワークセキュリティ、コンピュータアーキテクチャなどで非常によく使われます。

 

原文

Permutation and combination formulas can be expressed using P, C, m, n

The different ways in which objects from a set are arranged in the form of subsets is done by permutations and combinations.

Precisely, in Mathematics

Combination

When the order doesn’t matter, it is a Combination. 

For example: 

I have three siblings Bilal, Haleema and Noman. Here we do not care about the order.

Formula:

The number of combinations of ‘n’ objects taken ‘r’ at a time is determined by the following formula:

Permutation

When the order does matter, it is a Permutation. 

For example: 

The password to my mobile phone is 3478. Now the order matters here as the password should exactly be 3-4-7-8 but not 3487 or any other arrangement of the password.

Formula

The number of permutations of ‘n’ objects taken ‘r’ at a time is determined by the following formula:

Permutations and combinations are highly used in statistics, communication networks, cryptography, network security, and computer architecture etc.

References 

[3_1] https://www.mathsisfun.com/combinatorics/combinations-permutations.html

[3_2]https://www.mathplanet.com/education/algebra-2/discrete-mathematics-and-probability/permutations-and-combinations#:~:text=One%20could%20say%20that%20a,(n%E2%88%92r)!

 

(No. 4) 条件付き確率の意味を説明できる

確率においては、事象とは無作為な実験の結果とされています。

可能な全ての出来事の結果は、実験または結果の標本空間を作ります。

例として、「何曜日」という言葉には7つの可能な結果を持っていますね。しかし、「今日は何曜日」という言葉には1つの結果しか持ちません。これらが事象です。

この事象には互いに依存するものと独立するものがあります。そこで、条件付き確率とは他の事象が既に発生している場合に、ある事象が発生する確率のことです。

例えば、ある人が新型コロナウイルスに感染している場合、他の人を感染させるという事象が発生する可能性は90%になります。

条件付確率の公式:

  • P(A|B)は条件付確率であり、事象B(その人が新型コロナウイルス陽性)が既に発生している場合に、事象Aが発生する確率(他の人が感染する確率)である。
  • P(A∩B)は、事象AとBの結合確率であり、事象AとBの両方が発生する確率である。
  • P(B)は、事象Bの確率です。

 

原文

Explain the meaning of conditional probabilities

In probability theory, an event is an outcome of a random experiment. All the possible outcomes of an event forms the sample space of an event/ experiment. For example, what the day of a week has seven possible outcomes which is the sample space of the event. However, what day of the week is today has only one outcome which is an event. 

Events can be dependent or independent of each other. Conditional probability is the probability of an event given that the other event has already occurred. For example, if a person has Covid-19, there will be a 90% chance that the event of making other people infected is possible. 

Formula for Conditional Probability

  • P(A|B) is the conditional probability; the probability of event A occurring (the probability of making others infected) given that event B (the person has positive Covid-19) has already occurred.
  • P(A ∩ B) is the the joint probability of events A and B; the probability that both events A and B occur 
    • P(B) is the the probability of event B

 

(No. 5) 平均(相加平均)、中央値、最頻値の算出方法の違いを説明できる

平均値

データセットの平均値は、データセット内のすべての数値を加算しセット内の値の数で割ることで求められます。例えば、あるクラスに7人の生徒がいて、彼らは数学の試験で79、79、34、75、79、81、92点を獲得しました。彼らの平均は 

平均値 = (79 + 79 + 34 +75 + 79 + 81 + 92) / 7 = 74 になります。

中央値

中央値とは、データセットを小さいものから大きいものに並べたときの真ん中の値のことです。上記のデータセットの並びは次のようになります。34, 75, 79, 79, 79, 81, 92 

このとき中央値は79です。

最頻値

最頻値とは、データセットの中で最も頻繁に出現する数値のことです。

上記のデータセットから明らかですが、最も頻繁に出現している数値は79です。これはこのデータセットの中で3回繰り返されています。

 

原文

Explain the difference in calculation method of mean (arithmetic mean), median, and mode

Mean

The mean (average) of a data set is found by adding all numbers in the data set and then dividing by the number of values in the set. For example there are seven students in a class and they obtained 79, 79, 34, 75, 79, 81, 92 marks in a Mathematics exam. Their mean is 

Mean = (79 + 79 + 34 +75 + 79 + 81 + 92) / 7 =  

Median

The median is the middle value when a data set is ordered from least to greatest. The sequence of the above data set is the following:

34, 75, 79, 79, 79, 81, 92

Their median (middle) value came out to be 79.

Mode

The mode is the number that occurs most often in a data set. It is obvious from the given data set that the most occurring mode value is 79 which is repeated thrice in the given dataset. 

 

(No. 6) 母集団データ(3,4,5,5,7,8)の分散と標準偏差を電卓を用いて計算できる

ここで、∑は「総和」を意味し、xはデータセット内の値、μ(ミュー)は前に説明したようにデータセットの平均値、Nは母集団内のデータポイントの数です。

標準偏差は、データセット全体の変動性を測定したものです。データセットの平均値からの数値の広がりを表すもので,シグマ(σ)を用いて表されます。

以下のアルゴリズムによる計算ツールを使えば、データセットの平均、分散、SDを簡単に求めることができます。

 

原文

The variance and standard deviation of the population data (3,4,5,5,7,8) can be calculated using a calculator.

Statisticians doesn’t calculate the Standard Deviation (SD) by hand as there is no point in doing the calculations manually because the chance of mistake is high. This can be illustrated by the use of SD formula 

where ∑ means the sum and x is a value in the data set, μ (pronounced as mu) is the mean of the data set as explained before, and N is the number of data points in the population.

Standard deviation (SD) measured the volatility or variability across a set of data. It is the measure of the spread of numbers in a data set from its mean value and can be represented using the sigma symbol (σ). The following algorithmic calculation tool makes it easy to quickly discover the mean, variance & SD of a data set.

 

(No. 7) 母(集団)平均が標本平均とは異なることを説明できる

母集団と標本

母集団とは対象となる人、物、項目の集まりであり、標本とは全体の一部であり、適切に採取された場合には全体を代表するものであるという違いがあります。

母集団平均

母集団の平均はギリシャ文字のmu(μ)で表されます。これは次の式で与えられます。

大文字のギリシャ文字シグマ(𝚺)は、数学では一般的に、あるグループ内のすべての数字の合計を表すのに使われます。Nは母集団における項の数を表しています。

標本平均

標本平均は,x bar で表されます.これは次の式で表されます。

ここで、nは標本の中の用語の数です。

標本平均と母集団平均は、データの推論に用いられます。

 

原文

Explain that the population mean is different from the sample mean

Population and sample

A population is a collection of persons, objects or items of interest whereas a sample is a portion of the whole and, if properly taken, is representative of the whole.

Population mean

The population mean is represented by the Greek letter mu (μ). It is given by the formula:

The capital Greek letter sigma (𝚺) is commonly used in mathematics to represent a summation of all the numbers in a grouping. N is the number of terms in the population.

Sample Mean

The sample mean is represented by x bar . It is given by the formula:

where n is the number of terms in the sample.

Sample mean and population mean is used for data inference. 

References

[7]https://www.onlinemathlearning.com/population-mean.html#:~:text=What%20Is%20Population%20Mean%20And,estimate%20of%20the%20population%20mean

 


おわりに

 

以上が「データサイエンス力」のNo.1 から No.7までの解説になります。

次回はNo.8からの解説になります。1~180項目まで順に追って解説していくので、マーケターの皆さんは本シリーズを購読し、データサイエンスの世界に踏み出していきましょう。

2021年より、デジマールに入社。English speaker,  I like travelling as it gives me a whole new perspective of life and way of thinking.

中野将志

2021年より、デジマールに入社。English speaker, I like travelling as it gives me a whole new perspective of life and way of thinking.

広告運用代行や各種支援について、
お気軽にご相談ください。
デジマールのマーケティングノウハウをご提供します。

お問い合わせはこちら