コース: データサイエンスの基礎:基本

今すぐコースを受講しましょう

今すぐ登録して、23,200件以上登録されている、業界エキスパート指導のコースを受講しましょう。

データ解析によるルールを導出する

データ解析によるルールを導出する

ダンサーは、美しい動きのための 技術を長年かけて磨いています。 ただ不思議なことに、 目指すダンスを極めるためには、 時として意識的な思考を減らす 必要があるのです。 意識的な思考は、往々にして動きの なめらかさや表現の豊かさを 損なうからです。 データサイエンスの世界でも、 専門知識や意思決定のルールについて 考えを巡らせてばかりいないで、 データの声を聞きながら方向性を 探ることが必要な場合があります。 まず注目したいのが線形回帰です。 よく使われる効果的な手法で、 多くの変数を組み合わせた数式によって 1つの結果を予測します。 多くの小川が集まって、 やがて1つの川になっていくイメージです。 では、データサイエンティストの 年収データを例として、 線形回帰をやってみましょう。 実際のデータを元にしていて、 相関係数も実際の解析で求めますが、 ここでは、数式に入っている変数のうち、 主なものだけを紹介します。 調査から導き出されたのは、 データサイエンスを仕事にする人の 年収を予測する数式です。 まず基本の額が35,000ドルで、 グラフの切片にあたります。 次に、年齢に応じた金額として、 その人の実年齢から 18 歳分を引いた数に 1,400ドルをかけて加えます。 さらに、その人の交渉能力を1から5の 5段階で相対評価し、 それに5,900ドルをかけた額を 加えます。 交渉に長けている人ほど、 年収が多くなるわけです。 そしてさらに、その人の1週間あたりの 労働時間に380ドルをかけた額を 加えます。 このように、基本の年収に年齢と交渉能力と 労働時間の要素を加味することで、 データサイエンティストとしての 年収予測値が算出できます。 このように、複数の情報源からのデータと、 データから導き出された最適な予測式という ルールを使って、ほかの人々の年収も 予測できるという線形回帰の手法は、 その簡便さが大きな強みです。 データサイエンスのプロジェクトで よく使われるもう1つの手法が決定木です。 決定木とは、集めたデータを元に、 二分(にぶん)決定を連ねながら 1つの結果を予測する手法です。 名前に「木」が入っているのは、 決定の結果が枝分かれするように 広がっていくからです。 ここでは、さまざまなアヤメの花を 計測した有名なデータセットを例に、…

目次