コース: データサイエンスの基礎:基本

今すぐコースを受講しましょう

今すぐ登録して、23,200件以上登録されている、業界エキスパート指導のコースを受講しましょう。

強化学習について

強化学習について

動画で見た人も多いと思いますが、 Boston Dynamics の アトラスというロボットは、 この写真ほど人間には似ていないものの、 二足歩行でパルクールの演技や 後方宙返りを見せてくれます。 信じられないほどの見事な動きで、 技術的な完成度の高さはもちろんのこと、 自分の運動神経がどんなに鈍いかも 改めて思い知らされる映像です。 アトラスをはじめ、 数々のすばらしい技術発展の 鍵となっているのは、データサイエンスの 強化学習という分野です。 例えば、以前なら複雑すぎて コンピューターには不可能と 考えられていたチェスや 囲碁などのゲームでは、 戦い方をマスターして実力トップの人間にも 勝てるようになった アルゴリズムがあります。 また、自動運転車は車線内を安全に 走行しながら大陸横断級の長距離も 移動できます。 株式市場では、 アルゴリズムが利益を最大化するために 最も効果的なタイミングと銘柄と金額を 判断して売買を行っています。 人々の命がかかる医療分野でも、 多くの関心が集まっています。 強化学習を応用して薬の用量を決めたり、 慢性疾患の動的治療レジメン、 略して DTR(ディーティーアール)を定めたり、 治験計画を策定したり 実行したりするなど、 さまざまな用途が考えられています。 強化学習の基本となっている考え方は、 きわめてシンプルです。 まず、学習のための状況設定を行います。 アルゴリズムにルールと制約を インプットして、 許容される行動と オフサイドになる場合を教えます。 その次は、学習の進捗度と、 報酬の仕組みである Q 値(キューち)を、 時間を置いて繰り返し評価する仕組みを 用意します。 Q 値は、その時点から期待される 報酬の総量を意味しています。 強化学習の一般的な手法の中にも、 この名前にちなんで Q 学習と 呼ばれるものがあります。 報酬の仕組みとは、学習の進捗に応じた 点数を与えられる仕組みということです。 具体的な報酬の仕組みを設定できたら、 そこからいよいよアルゴリズムに 学習をさせていくことになります。 ここでは、ある状態の時にある行動を 取る確率を表すポリシーマップ、 すなわち機械学習用語で方策と 呼ばれるものを作っていきます。 ここで関わってくるのが、 対をなす2つの概念である、 探索と利用です。…

目次