【データサイエンス入門講座】 第8回(標準正規分布)

データサイエンス入門講座とは?

こちらの講座では、データサイエンティスト協会様がリリースしている「データサイエンティストのためのスキルチェックリスト」に沿った解説を行っていきます。

「データサイエンティストのためのスキルチェックリスト」とは、データサイエンティストとして活躍するために必要なスキルが体系化されたものです。

 

このデータサイエンス入門講座に従って学習していくと、データサイエンティストに必要なスキルセットである「データサイエンス力」を一通り学習することが出来ます。

データサイエンス入門講座の一覧はこちら

今回勉強するデータサイエンスの範囲

第8回では、「データサイエンティストのためのスキルチェックリスト」の「データサイエンス力」項目No.8の解説になります。

多くの専門用語や公式が登場しますが丁寧に理解しやすく説明していきます。

本記事はIffat Maabさんによる英語の解説を翻訳しています。

 

Iffat Maab

東京大学大学院工学系研究科技術経営戦略学専攻(TMI)博士課程在学中。パキスタン、イスラマバード市出身。


標準正規分布の分散と平均がいくつかわかる

標準正規分布

標準正規分布とは確率分布の1種で、平均(μ=0)がゼロ,分散(σ^2)が単位である分布のことです。確率密度関数と分布関数によって与えられます。

ここで、母平均はμ(ミュー)、母分散はσ2(シグマ)で表されます。

正規分布はベル型をしておりで、平均0を中心にして対称となります。

 

平均μと分散σ2については、こちらの第6回で説明しています。

 

標準正規分布で平均と分散がどのように用いられているか

先ほども述べたように、「標準正規分布では、平均が0、分散が1」となっています

上の分布のようにデータの密度としては、平均付近に非常に集中しており、分布の中心から左右に移動すると非常に小さくなることが分かると思います。

つまり、分布の中心から離れれば離れるほど、その値が観測される可能性は低くなっています

このように可視化することで特に大量のデータを扱う問題では、正規分布を用いて理解しやすくなっています。

その為、平均μと分散σ2を指定し、μとσ2をパラメータとし標準正規分布を固定しているのです。

µを増加させると、正規分布はベル型の外観を変えずに右に移動し、一方、分散σ2を増加させると、密度関数の位置を変えずに平坦になります。

先ほどの表では一部しか表されていませんが、正規分布はマイナスの無限大からプラスの無限大までがあります。

 

標準正規分布を用いることで分かりやすくなるデータの例

平均と分散で標準正規分布を固定していることが分かったので、次に例を挙げて理解を深めましょう。

例えば、人の身長は、遺伝、栄養(単に良いか悪いかではなく、その人が成長している間に毎日実際に食べられたもの)、環境など、多くの小さな影響によって決定されます。

そのため、(さらに性・人種の組み合わせを考慮しても)身長というデータはほぼ正常で分布されます。

他にも、特定の地域の年間降水量では、その年の毎日の降水量の合計であり、毎日の降水量はおそらく正常から非常にかけ離れていますが、それらの日をすべて合計すると正常な確立分布が得られます。

 

目的

このように、経済学者や統計学者はデータを数値だけでなく可視化して理解しようとします

以前の講座で解説したように、平均値はデータの中心傾向を示す尺度です。そして、分散に関しても、統計学者がデータの分散を見るために使用します。

このような平均と分散という2つのパラメータを用いて正規分布に用いることで、データの可視化の幅が広がります。

例えば、東京都人口の400人の無作為抽出サンプルから、「市の交通システムは適切である」と答えた人が136人いるとします。

このデータから正規分布を使用して、交通システムが適切であると感じている人口比率の信頼区間を計算することができます。


まとめ

以上が「データサイエンス力」のNo.8の解説になります。

次回はNo.9からの解説になります。1~180項目まで順に追って解説していくので、マーケターの皆さんは本シリーズを読んで、データサイエンスの世界に踏み出していきましょう。

データサイエンス入門講座の一覧はこちら

2021年より、デジマールに入社。
趣味はキャンプ。

中野将志

2021年より、デジマールに入社。 趣味はキャンプ。

広告運用代行や各種支援について、
お気軽にご相談ください。
デジマールのマーケティングノウハウをご提供します。

お問い合わせはこちら