コース: 統計学の基礎:データセットの利用

平均値の標本分布

中心極限定理を使うと、 数少ない単純無作為サンプルでも、 母集団の比率が見えてくることが 分かりました。 母集団の平均値についても 同じことが言えます。 大学のバスケットボールリーグが あるとします。 3,000 人以上の選手が リーグに所属しています。 これらの選手の平均体重、つまり 母集団の平均値を知りたいとします。 でも、3000 人以上いる選手全員の 体重を測りたくはありません。 どうしたらいいでしょう。 単純無作為サンプルを4つとってみます。 各サンプルには5人の選手の 体重を含みます。 サンプルサイズは5です。 サンプル A には5人の体重、 180、160、205、195、145 があります。 このサンプルの平均値は 177 です。 ほかの3つのサンプルは、 サンプル B の平均値が 174、 サンプル C の平均値が 181、 サンプル D の平均値が 172 となっています。 この4つのサンプルの平均、 177、174、181、172 の平均を出すと 全サンプルの平均は 176 となります。 実は巨大なデータセットを持っていて、 そのデータセットから単純無作為抽出で サンプルを取りました。 そのため、このデータセットの 本当の母平均が 180 であることが分かっています。 驚くべき結果です。 サンプル数が4、サンプルサイズが5という 少ないサンプルにもかかわらず、 母平均の有意義な近似値を 出すことができました。 サンプル平均の平均は 176 で、 実際の母平均は 180 です。 そして、中心極限定理によれば、 サンプル数やサンプルサイズを 増やせばさらに、 実際の母平均に近づくはずです。 では実際に試してみましょう。 データセットから6つの 単純無作為サンプルを抽出しました。 今回のサンプルサイズは8です。 この6つのサンプル平均の平均は 180.5 です。 驚くほど母平均の 180 に近づきました。 つまり、 非常に大きな母集団を扱う場合でも、 中心極限定理と、 いくつかの単純無作為抽出による サンプルを使えば実際の母平均が どれくらいかということを 知ることができるのです。 仮に、3000 人を超える大学の バスケットボール選手ではなく、 アメリカの大学に在籍する 18 歳から 24 歳の男性の平均体重が 知りたいとします。 男子大学生は何百万人といますが、 心配はいりません。 中心極限定理を使い、 慎重に単純無作為サンプルを 抽出することによって、 男子大学生全体の平均体重の合理的な 近似値を得ることができるでしょう。 そして、単純無作為サンプルの数と、 サンプルサイズを増やすことによって 実際の母平均により近い数値を 得ることができます。

目次