コース: データサイエンスの基礎:基本

今すぐコースを受講しましょう

今すぐ登録して、23,100件以上登録されている、業界エキスパート指導のコースを受講しましょう。

AutoMLとは

AutoMLとは

データを扱う仕事に困難はつきものです。 たとえ順調でも、 誰にも称賛されることがない 地道な作業の連続です。 よく言われるのは、 データプロジェクトに要する 時間の8割がデータの準備に 費やされるということです。 これは私自身の経験とも一致します。 データの準備には、分類に関係する特徴量、 すなわち変数を数値の形に置き換えたり、 欠損値に対応したり、 単位を変更したりする作業なども 含まれます。 さらに、機械学習モデルを構築する プロジェクトでは、予測に役立つ 特徴量を抽出したり選択したりといった 複雑な作業である特徴量エンジニアリングが 中心となります。 それ以外にも機械学習には、 ハイパーパラメーターという 難題があります。 さまざまなアルゴリズムに使用する 設定のことで、 実際のデータ解析を行う前に 設定しなければならない、 たくさんのツマミや スイッチのようなものです。 内容によっては簡単な場合もあります。 例えば線形回帰ならα(アルファ)値と 偽陽性率を設定するぐらいですし、 k近傍法(ケイきんぼうほう)なら 考慮する標本数を指定するだけです。 一方、ディープラーニングなどの アルゴリズムとなると、隠れ層の数、 1つの層のユニット数、学習率、 ドロップアウト率、エポック数など、 非常に多くのハイパーパラメーターが あります。 加えて、検証の仕組みをどう設定するか という問題もあり、 それぞれが結果を大きく左右します。 ハイパーパラメーターは、 アルゴリズムの性能だけでなく、 再現性にも関わっています。 こうしてできたモデルの分析結果を 発表したり誰かと共有したりする人は、 ハイパーパラメーターを どう設定したかという細部にまでは 触れないので、 同一のデータを使っても、 なかなか同じ結果にはなりにくいのです。 そもそも、どのハイパーパラメーターを 使えばいいかというのも、難しい問題です。 そこで、ハイパーパラメーターの選択を 最適化する手法がいろいろと存在します。 グリッドサーチ、ランダムサーチ、 ベイズ最適化、勾配ベース最適化、 進化的最適化など、 多様な手法が考え出されています。 ハイパーパラメーターの設定は、 それほど重要で、 しかも複雑なタスクなので、 この問題への対応をめぐって、 さまざまな試行錯誤が重ねられてきました。…

目次