【データサイエンス入門講座】 第6回(分散と標準偏差)

データサイエンス入門講座とは?

こちらの講座では、データサイエンティスト協会様がリリースしている「データサイエンティストのためのスキルチェックリスト」に沿った解説を行っていきます。

「データサイエンティストのためのスキルチェックリスト」とは、データサイエンティストとして活躍するために必要なスキルが体系化されたものです。

こちらの独立行政法人情報処理推進機構様の公式サイトからダウンロードすることができます。

このデータサイエンス入門講座に従って学習していくと、データサイエンティストに必要なスキルセットである「データサイエンス力」を一通り学習することが出来ます。

データサイエンス入門講座の一覧はこちら

今回勉強するデータサイエンスの範囲

第6回では、「データサイエンティストのためのスキルチェックリスト」の「データサイエンス力」項目No.6の解説になります。

多くの専門用語や公式が登場しますが丁寧に理解しやすく説明していきます。

本記事はIffat Maabさんによる英語の解説を翻訳しています。

 

Iffat Maab

東京大学大学院工学系研究科技術経営戦略学専攻(TMI)博士課程在学中。パキスタン、イスラマバード市出身。


母集団データの分散と標準偏差を電卓を用いて計算できる

こちらは分散標準偏差に関する問いです。

この値の求め方を知ることででデータセットをより統計的に見ることが出来ます。

どちらも「データセットの平均値からのばらつき、数値の散らばり方を表したもの」になっています。

 

標準偏差

標準偏差(SD)とは、データセット全体の変動性(ボラティリティー)を測定し表したものです。

これは小文字のシグマ記号(σ)を用いて表されます。大文字のシグマ(Σ)は総和を指しており、同じ発音でも異なっているので注意が必要です。

こちらが標準偏差の公式です。

ここで、∑(シグマ)は”総和”を意味し、xは”データセット内のそれぞれの値”を表しています。

そして、μ(ミュー)は前回説明したデータセットの”平均値”、Nは母集団内の”データポイントの数”(注)です。

標準偏差は上の公式のように計算過程が複雑であり、統計学者は標準偏差を手で計算することはありません。

  1. Σ内の計算
  2. ΣをN(データポイントの数)で割る。
  3. 結果を√で計算

という手順を電卓で行い、標準偏差を計算することが出来ます。

(注)データポイントとは機械学習、データサイエンス等の分野において用いられるデータセット内の標本の事。

 

分散

分散は、データポイントが平均からどのように異なるかを示す指標です。言い換えると、データ(数値)が平均値からどれだけ離れているかを示す尺度です。


一般的に、標準偏差の公式の√内の値が標準偏差になっています。

統計学では、分散はより包括的な数学的手法を使用する代わりに、データセット内で異なる数値がどのように相関しているかを理解するために使用されます。

 

標準偏差と分散の違い

先ほど述べた通り、どちらもデータセットの平均値からのばらつき、数値の散らばり方を表したものです。

しかし、分散の平方根(√)をとったものが標準偏差になっています。

標準偏差=√分散

という関係性から違いを見ることが出来ます。

 

分散と標準偏差の計算例

母集団データの分散と標準偏差を計算してみましょう。

母集団データを「2、4、5、5、6、8」とします。

先ほどの公式から分かるように、平均と分散は相互に関連しており初めに平均値を求めなければなりません。

まず、平均値を求めるには、次のようにします。

平均値 = ( 2 + 4 + 5 + 5 + 6 + 8 ) / 6 = 30 / 6 = 5

ここで、平均値が5であることが分かりました。

先ほどの公式を用いて、分散を計算するには平均値からそれぞれの差を計算し、それを二乗し、もう一度平均値を求めます。

つまり、このデータの分散は、

σ2 = ( (-3)2 + (-1)2 + 02 +02 +12 +32 ) / 6

σ2 = (9 + 1 + 0 + 0 + 1 + 9) / 6

となります。

分散 = 3.333

と分かり、この値に√を用いて標準偏差を求めると、

標準偏差 = √3.333 = 1.825

という値が求められます。

 

目的

実際の統計では,母集団全体のデータを用いることはほとんどありません。

例えば、教室にいる全員の身長を測ることはできても、地球上の全員の身長を測ることはできません。また、ピンポン玉を機械で打ち出してその距離を測定する場合、理論的にはピンポン玉を無限に打ち出す前提になってしまいます。

このように、母集団は非常に大きなデータです。

そこで、母集団から無作為に抽出された標本の分散または標準偏差は、データのセットが平均からどのくらい離れているか、または特定の標本が大きな母集団にどのくらいのばらつきを持っているかを知ることができます。

このように、分散と標準偏差はデータをより統計的に見るために必要な値となっています。

 

以下の計算ツールを使用すると、データセットの分散と標準偏差を簡単に求めることができます。

日本語:CASIO|Keisan – 度数分布の平均・標準偏差

英語:SCIENCE BUDDIES|Variance & Standard Deviation


まとめ

以上が「データサイエンス力」のNo.の6解説になります。

 

 

次回はNo.7からの解説になります。1~180項目まで順に追って解説していくので、マーケターの皆さんは本シリーズを読んで、データサイエンスの世界に踏み出していきましょう。

データサイエンス入門講座の一覧はこちら

2021年より、デジマールに入社。
趣味はキャンプ。

中野将志

2021年より、デジマールに入社。 趣味はキャンプ。

広告運用代行や各種支援について、
お気軽にご相談ください。
デジマールのマーケティングノウハウをご提供します。

お問い合わせはこちら