コース: 統計学の基礎:確率

確率密度曲線

離散確率分布は、 グラフ化するとこのような形になります。 離散変数は値と値が離れているので、 棒グラフで表現することができます。 値がすべて整数といった場合です。 一方、連続確率変数の場合は、 取りうる値が無限にあるのが特徴です。 これは、ある空港の1日の利用者から 10 人を無作為に抽出して、 待ち時間を調べたデータです。 この表のデータはどれも小数であり、 同一の値もありません。 抽出する利用者を あと 50 人増やして調べても、 値が重複することはおそらくないのでは ないかと思われます。 こうした状況では、 考えられる値が無限にあるといえます。 値の分布を棒グラフで 表すことはできないので、 代わりに曲線を描いて表現します。 このような曲線を、 確率密度曲線といいます。 曲線より下の部分が、起こりうる すべての結果の確率を表しています。 例えば、こんな確率密度曲線なら、 A という結果になる確率が X で、 B という結果になる確率が Y であることを意味します。 また、曲線より下の部分が 起こりうるすべての結果の確率を 表すということは、 この部分全体の面積は、1.0、 すなわち 100%ということになります。 結果は無限に存在するので、 個々の確率を考えることには あまり意味がありません。 空港の保安検査で、 待ち時間がぴったり 12.5 分になる 確率を知りたい人はいるでしょうか。 ここで一般的なのは、 結果のまとまりについて 確率を求めることです。 それでは、改めて分布図を見てみましょう。 ここで意味のある質問は、 例えば、「検査が終わるまでの時間が 10 分から 20 分になる確率は」 といったものです。 この曲線を見ると、 全体の面積の約 25%にあたるのが、 ハイライトした区間になるようです。 次に質問を変えて、 「検査が終わるまでの時間が 10 分から 40 分になる確率は?」 と聞いた場合はどうでしょうか。 すると、曲線の下の面積全体の 50%を超える面積になります。 これは、利用客の 50%以上が 10 分から 40 分で検査場を 通過することを意味しています。 さらにこれが、 「検査が終わるまでの時間が 1分から 60 分になる確率は?」 という質問であれば、むろん、 100%にきわめて近い確率になるでしょう。 歯切れのいい答えではなく それぞれの区間の面積を 正確に求める方法が知りたい という人もいるでしょう。 それには2つの道具が必要となります。 密度を求める曲線の数式と、積分の手法で、 ここで取り上げるには、 とても時間が足りません。 ただし、曲線の下の合計面積が 1.0、すなわちすべての結果の 100%になる、 ということは大事なポイントです。 また、起こりうる結果の確率を 曲線で表すことや、曲線を使うと 一定範囲の結果になる確率を 推定できるのだということも、 ぜひ覚えておいてください。 確率密度と曲線について学んだところで、 次は、確率密度曲線の中でも 特に有名な、釣鐘型の曲線について 見てみましょう。

目次