コース: データサイエンスの基礎:基本

今すぐコースを受講しましょう

今すぐ登録して、23,200件以上登録されている、業界エキスパート指導のコースを受講しましょう。

特徴量選択と特徴量生成

特徴量選択と特徴量生成

大学で統計学を教えていると、 学習内容をなかなか身近に 感じられない学生がいます。 さまざまな具体例を挙げながら 説明するのですが、中でも、 野球などスポーツの分野に引きつけると、 どんな学生もデータの話に 身を乗り出してくれることがわかりました。 野球はデータのスポーツです。 100 年以上の歴史があって、 年間 162 試合が行われ、 あらゆるプレーがデータに残されています。 ある打者の実力を見たければ、 まずはこういった基本データを 見るところがスタートになるでしょう。 これだけでも扱うことになる 情報量はきわめて膨大です。 ここに挙がっているような要素を、 データセットの特徴量といいます。 チームの戦略を立てる監督や コーチともなれば、生データだけでは わからない情報にも注目するでしょう。 データを組み合わせると、 チームの隠れた価値や可能性を見出すことに 役立つ新たな特徴量を 生成することができます。 その筆頭はシンプルな数字で、 例えばこれは打率です。 これが意味しているのは、 打席に立ったうち安打になった割合です。 それぞれの数字にきちんとした 定義はありますが、打率自体は安打数割る 打席数で求められます。 もっと複雑な特徴量も作れます。 例えばこれは出塁率です。 この式の分子には、安打数、 フォアボール数、デッドボール数の 3つの和が入ります。 分母には、打席数、フォアボール数、 デッドボール数、犠牲フライ数の 4つの和が入ります。 実力の目安として、出塁率が打率に 優るという意見もあります。 21 世紀になると、 さらに高度な特徴量も作られています。 例えば次は、 wRC (ダブリューアールシープラス)といって、 打席あたりの得点創出の多さを 平均的な打者を 100 とした場合の パーセンテージで表した指標です。 この式で興味深いのは、 ひとつひとつの要素もまた 数式であるところです。 きわめて複雑な特徴量ですが、 元になっている情報はすべて公開されている 基本の数字です。 話を進める前に注意しておきたいのですが、 ここで取り上げる特徴量選択と 特徴量生成は、すでに解説した 次元削減とは異なる手続きです。 次元削減は主にデータの準備段階で 使われるものです。 それに続いて、作成するモデルに どのような特徴量を含めるかを…

目次