【データサイエンス入門講座】 第7回(母平均と標本平均)

データサイエンス入門講座とは?

こちらの講座では、データサイエンティスト協会様がリリースしている「データサイエンティストのためのスキルチェックリスト」に沿った解説を行っていきます。

「データサイエンティストのためのスキルチェックリスト」とは、データサイエンティストとして活躍するために必要なスキルが体系化されたものです。

 

このデータサイエンス入門講座に従って学習していくと、データサイエンティストに必要なスキルセットである「データサイエンス力」を一通り学習することが出来ます。

データサイエンス入門講座の一覧はこちら

今回勉強するデータサイエンスの範囲

第7回では、「データサイエンティストのためのスキルチェックリスト」の「データサイエンス力」項目No.7の解説になります。

多くの専門用語や公式が登場しますが丁寧に理解しやすく説明していきます。

本記事はIffat Maabさんによる英語の解説を翻訳しています。

 

Iffat Maab

東京大学大学院工学系研究科技術経営戦略学専攻(TMI)博士課程在学中。パキスタン、イスラマバード市出身。


母(集団)平均が標本平均とは異なることを説明できる

こちらは母平均標本平均の違いに関する問いです。

どちらも「平均」ですが指す集団が少し異なっています。今回は2つの違いを理解しましょう。

母集団と標本の違い

母集団とは、対象となる人、物、項目の集まりです。

一方、標本とは母集団から抽出された一部です。標本は適切に採取された場合には全体を代表するものになり、母集団の特徴を推測することが出来ます。

母集団平均

母集団平均は、先ほど説明した対象となる人、物、項目の集まりである母集団の平均です。上の図では左側の集団の平均です。

母集団平均はギリシャ文字のmu(μ)で表されます。母集団平均は次の式で表されます。

Nは標本中の項数となっています。

大文字のギリシャ文字シグマ(𝚺)は、数学では一般的に、あるグループ内のすべての数字の合計を表すのに使われます。Nは母集団における用語の数です。

標本平均

標本平均は,抽出された標本の平均のことを指します。上の図では右側の集団の平均です。

で表されます。これは次の式で表されます。

ここで,n は標本の項数です。

例えば、東京都の野生のネコを3匹標本として抽出したとします。

そこで、3匹の体重が、

4.0kg、3.7kg、3.9kg であるとします。

この平均は3.86kgとなりますが、この平均は母集団(東京都の野生のネコ)の割合ではありません。

たまたま抽出された標本の平均値が3.86kgであり、このことを標本平均といいます。

目的

標本平均と母集団平均は,データの推論のために必要になっています。

ほとんどの環境では母集団は非常に大きいですが有限になっています。例えば,インドの人口は非常に大きいことで知られてますが約14億人で有限であります。

しかし,こういった母集団が大きすぎると,統計学的にをわかりやすくするために,母集団を無限であると仮定します。

さらに、母集団が大きくなると、興味のあるパラメータ(例えば、母集団の所得の平均値)を正確に計算することは通常望めません。

なぜなら、そのためには大規模な集団から所得情報を入手しなければならないからです。これは、コストや実用性の面から実現不可能なことが多いです。その代わり、対象となる母集団から標本を採取し、標本の平均値(より一般的には、標本データに基づいた標本の平均所得の推定値)を計算して、標本の所得平均を求めます。

もちろん、標本の平均値は母集団の平均値とは一致しません。単純な無作為な標本であれば、標本平均は母集団平均の不偏推定値となります。

これは,標本平均が母集団平均よりも系統的に小さくも大きくもないということを意味しています。

別の言い方をすれば、

「たくさんの(実際には無限の)標本を繰り返し抽出していれば,標本平均の平均値は母集団の平均値と同じになる」ということです。


まとめ

以上が「データサイエンス力」のNo.の7解説になります。

次回はNo.7からの解説になります。1~180項目まで順に追って解説していくので、マーケターの皆さんは本シリーズを読んで、データサイエンスの世界に踏み出していきましょう。

データサイエンス入門講座の一覧はこちら

2021年より、デジマールに入社。
趣味はキャンプ。

中野将志

2021年より、デジマールに入社。 趣味はキャンプ。

広告運用代行や各種支援について、
お気軽にご相談ください。
デジマールのマーケティングノウハウをご提供します。

お問い合わせはこちら