コース: データサイエンス入門:基本を理解する

記述統計学から始める

コース: データサイエンス入門:基本を理解する

記述統計学から始める

データサイエンスチームはデータの収集、 スクラブ、保存に時間を費やし、 データを使って問いを立てます。 統計と数学でレポートを作成し、 新たな洞察が得られるか確認します。 統計は面白い分野です。 データサイエンスチームに参加するには、 用語の基礎知識が必要です。 統計はストーリーを語るうえで 役に立つことを覚えておいてください。 しかし、それで終わりではありません。 ストーリーが腑に落ちない場合は、 おかしいと感じたところまで 戻るようにします。 私の息子がうまい冗談を言っていました。 統計を使ってストーリーを作るコツです。 息子に、象が木に隠れているところを 見たことがないのはなぜだか分かるか、 と聞かれました。 答えは、上手に隠れているから、 だそうです。 レポートの確認では これを思い出してください。 統計は明確な数学だと思われています。 2足す2が4になることは明らかです。 統計はストーリーテリングに似ています。 事実、フィクション、ファンタジーを 含めることができます。 切り口を変えると、 大きな象を隠すことができます。 政治の世界ではよく目にします。 ある議員が、この4年間で有権者の 平均収入が5千ドル上昇した と発言したとします。 聴衆は拍手喝采です。 対立候補は、拍手する必要はない、 実際には典型的な中流家庭はこの4年間で 1万ドル減っている、と言います。 どちらが本当でしょうか。両方です。 統計を使って違う切り口で 話しているだけです。 一方は成功、もう一方は失敗について話し、 どちらも真実ですが、 どちらも全容を語っていません。 隠れている象を探す必要があります。 このケースでは、2人とも 記述統計学を使用しています。 個々の世帯についてではなく、 有権者全体でどうかということを 説明しようとしています。 典型的な世帯のストーリーを作っています。 一方の議員は平均値と呼ばれる数値を 使っています。いわゆる平均です。 各世帯の収入をすべて合算して、 世帯の総数で割り算します。 最も有用で、よく用いられる 記述統計の1つです。 成績の平均点、スポーツの統計、移動時間や 投資の見積もりにも利用できます。 ここでは、議員が全世帯の収入を 合計したとします。 それを世帯の総数で割り算しました。 各世帯の収入が約5千ドル 増えたことになります。 しかし、平均値は 唯一の方法ではありません。 もうひとりの議員は別の方法である、 世帯収入の中央値を使いました。 中央値は、分布の中央にいる世帯の 収入を示します。 これを割り出すには、全世帯を 年収順に並べてランク付けします。 上位から番号を付け、 ランキングの半分に位置する 真ん中の家族を探します。 その世帯の収入が中央値となります。 さて、象を探してください。 中央値と平均値に大きな差がある場合、 データに歪みがあります。 ここには非常に裕福な世帯が 少数いると想像してください。 過去数年で、収入が大幅に増え、 数百万ドル増えた可能性もあります。 上位の世帯がお金を持っているために、 データが歪んでしまったのです。 これで平均値は上がりますが、 中央値には影響しません。 つまり、平均値には上位の世帯の収入も 合算され組み込まれます。 中央値の場合、 そのような世帯は最上位になり、 世帯の数は変わらないため、 中間点にある世帯の収入は 影響を受けません。 中央値と平均値を別の例で見ましょう。 部屋に2人いて、 平均身長は 180 センチ以下です。 ここにバスケットボール選手が入ると、 平均身長が高くなります。 身長の中央値はほぼ同じですが、 グループでは高くなります。 統計情報を使ったストーリーを見たときは、 疑問を持つことをためらわないでください。 主張の根拠を確認します。 レポートでデータを説明する際には、 複数の切り口を使ってください。 統計は異なるストーリーを語るので、 隠れた象に注意しましょう。

目次