【データサイエンス入門講座】 第5回(平均値・中央値・最頻値)

データサイエンス入門講座とは?

こちらの講座では、データサイエンティスト協会様がリリースしている「データサイエンティストのためのスキルチェックリスト」に沿った解説を行っていきます。

「データサイエンティストのためのスキルチェックリスト」とは、データサイエンティストとして活躍するために必要なスキルが体系化されたものです。

 

このデータサイエンス入門講座に従って学習していくと、データサイエンティストに必要なスキルセットである「データサイエンス力」を一通り学習することが出来ます。

データサイエンス入門講座の一覧はこちら

今回勉強するデータサイエンスの範囲

第5回では、「データサイエンティストのためのスキルチェックリスト」の「データサイエンス力」項目No.5の解説になります。

多くの専門用語や公式が登場しますが丁寧に理解しやすく説明していきます。

本記事はIffat Maabさんによる英語の解説を翻訳しています。

 

Iffat Maab

東京大学大学院工学系研究科技術経営戦略学専攻(TMI)博士課程在学中。パキスタン、イスラマバード市出身。


平均値、中央値、最頻値の算出方法を説明できる

解答

平均値:データセット内の数値を全て足し、データセット数で割る。言い換えると、合計/個数。

中央値:データセットを昇順・降順に並べたときの真ん中の値を取る。

最頻値:データセットで最も見られる値を取る。

 

解説

今回は平均値・中央値・最頻値の求め方に関する問いです。

これらを解説する前に、今回の解説で頻繁に使われる「データセット」という言葉の意味について説明します。

データサイエンスの分野で頻繁に用いられる言葉であり、データセットとは「データの集合」の事を指しています。

それでは、それぞれの意味と算出方法を確認していきます。

 

平均値

平均値は、与えられたデータのすべての数値を足し、データ数で割ることで求められます。

例えば、「あるクラスに7人の生徒がいて、彼らは数学の試験で79、79、34、75、79、81、92点を獲得した」とします。

 

そこで彼らの平均は、

平均値 = (79 + 79 + 34 +75 + 79 + 81 + 92) / 7 =74.1 として求められます。

中央値

中央値とは、データセットを小さいものから大きいものへと順に並べたときの、真ん中の値のことです。

奇数個の要素から中央値の位置を求めるには、次のような計算式を用います。

中央値の位置=(N + 1) / 2

Nはデータセットの数です。

与えられた要素は「79, 79, 34, 75, 79, 81, 92」です。

まず、データセットを昇順に並べると34, 75, 79, 79, 79, 81, 92

データセット内のデータの数は7なので、中央値の位置は、

(7 + 1) / 2 = 4位 と分かります。

そのため、並べられたデータの4番目の位置の79が、中央値であると分かります。

最頻値

最頻値とは、データセットの中で最も頻繁に出現する数字のことです。

与えられたデータセットから明らかなように,最も頻度の高い値は79でありこれは与えられたデータセットの中で3回繰り返されている値になっています。

 

何の為に平均値、中央値、最頻値は用いられるのか

これらの平均値、中央値、最頻値はデータの傾向を表すものために不可欠となっています。これらは、中心傾向と呼ばれており、他にもモード、ピタゴラス平均などデータの傾向を表す様々な中心傾向が存在しています。

このように、膨大なデータを扱う際にはデータ全体の特徴を分かりやすく見るための値が必要になっているのです。

 


まとめ

以上が「データサイエンス力」のNo.5の解説になります。

 

 

次回はNo.6からの解説になります。1~180項目まで順に追って解説していくので、マーケターの皆さんは本シリーズを読んで、データサイエンスの世界に踏み出していきましょう。

データサイエンス入門講座の一覧はこちら

2021年より、デジマールに入社。
趣味はキャンプ。

中野将志

2021年より、デジマールに入社。 趣味はキャンプ。

広告運用代行や各種支援について、
お気軽にご相談ください。
デジマールのマーケティングノウハウをご提供します。

お問い合わせはこちら