ベイズ推論のメリットについて解説します。
この範囲は「データサイエンティストのためのスキルチェックリスト」の「データサイエンス力」項目No.14の解説になります。
多くの専門用語や公式が登場しますが丁寧に理解しやすく説明していきます。
本記事はデータサイエンスを研究されているIffat Maabさんによる英語の解説を翻訳しています。
Iffat Maab
東京大学大学院工学系研究科技術経営戦略学専攻(TMI)博士課程在学中。パキスタン、イスラマバード市出身
マーケターのためのデータサイエンスの時間とは?
こちらの講座では、一般社団法人データサイエンティスト協会様がリリースしている「データサイエンティストのためのスキルチェックリスト」に沿った解説を行っていきます。
「データサイエンティストのためのスキルチェックリスト」とは、データサイエンティストとして活躍するために必要なスキルが体系化されたものです。
このマーケターのためのデータサイエンスの時間に従って学習していくと、データサイエンティストに必要なスキルセットである「データサイエンス力」を一通り学習することが出来ます。
<マーケターのためのデータサイエンスの時間の全一覧はこちら>
ベイズ推論が学習や予測、モデル評価などをすべて確率分布上の計算問題として扱っていることにより、これらの要素を確率分布として扱わない手法と比べ、どのようなメリットを生み出しているか理解している
解答
ベイズ推論は機械学習におけるプロセスを計算問題として扱うことによって、観測データを確率分布のパラメータとして扱うことが可能になり定量的な予測が可能になるというメリットを生み出している。
解説
ベイズ推論がすべてを確率分布上の計算問題として扱うことのメリットについてで考えてみましょう。
ベイズ推論とは第15回で説明したベイズの定理に基づき、事象から推定したいことを確率分布から推論する手法のことです。
言い換えると、主観的に予測したいことの確立を決めてしまい、抽出したデータから主観的なデータを補正していき精度の高い推論に近づける手法とも言えます。
機械学習のプロセスである学習、予測、モデル評価はベイズ推論によって観測データから計算問題として定量的に扱うことが可能になっているのです。
それでは実際にベイズ推論がどのように行われるのか説明しましょう。
ベイズ推論は以下の3つの段階によって行います。
- 事前確率の設定
- 尤度(ゆうど)による事前確率の補正
- 事後確率の算出
ここで、ベイズ推論の説明を行うにあたって「迷惑メールの振り分け」を例にしてみましょう。
事前確率
まず、事前確率とは、主観で設定する確率のことです。迷惑メールが届く確率を主観で5%ほどと考えるとしましょう。これが事前確率です。
尤度
そして、尤度です。尤度とは、ある前提条件で結果が出る際に前提条件がどれほどの精度を持っているかを表した値になっています。
尤度の”尤”は「もっともらしさ」という意味を持つ漢字であり、ここでは事前確率の正しさを示します。
そこで、迷惑メールにある一定の単語が含まれている傾向があるとします。振り分けた迷惑メールから一定の単語を含む確率を求めることで、事前確率のもっともらしさ(尤度)を求めることが出来ます。
事後確率
求めた尤度を事前確率にかけることで、事後確率が算出されます。
この事前確率を決め、尤度を測り、事後確率を求めるという流れがベイズ推論になっています。
このように、ベイズ推論では主観的に設定した事前確率が実際にデータから観測された尤度によって補正されていくのです。
このように、ベイズ推論は観測データを確率分布のパラメータとして計算問題とすることで機械学習のプロセスである学習、予測、モデル評価を定量的に扱うことが可能になっているのです。