コース: データサイエンスの基礎:基本

今すぐコースを受講しましょう

今すぐ登録して、23,200件以上登録されている、業界エキスパート指導のコースを受講しましょう。

分類について

分類について

ペットの犬は、さまざまな愛らしい しぐさを見せてくれます。 カメラを向けると 画面いっぱいに顔を近づけてくる様子も、 多くの写真や動画でおなじみです。 こうして写真を撮りためていると、 スマートフォンの写真アプリが ひとりでに内容の分析を始めて、 何の写真かを判断してくれます。 犬がどんなものなのかを教えなくても、 「犬」と入力するだけで犬が写った 写真を検索できるのです。 これは、機械学習アルゴリズムが 写真のデータを分析して、犬、猫、 子ども、といった被写体に分類する ラベルをつけてくれるおかげです。 分類は、データサイエンスの アルゴリズムが担っている仕事の中でも 特に重要なものの1つで、 どんな種類のデータも分類可能です。 機械学習による自動分類の基本的な発想は、 とてもシンプルです。 個々の事例を、多次元の空間に プロットします。 次元の数は、その事例に関して データ化された情報すなわち変数の数で、 おそらく3次元よりは多く、 時には数百から数千に及ぶこともあります。 空間上の位置が決まったら、 その近くにあるデータの ラベルと比較します。 もちろん、比較対象のデータは すでにラベリングが済んでいるものです。 そのデータのラベルが犬や猫や 建物となっていれば、 新たにプロットされた事例も、 近くにあるデータのラベルと 同じカテゴリーに分類するのです。 このように、原理的には とてもシンプルな手続きです。 さて、具体的にその分類を どのように行っていくのかという 手法に関しては、 主に次の2つの選択肢があります。 よく使われているのが、 k(ケー)平均法です。 何種類のカテゴリーに分類するかを、 あらかじめ決定しておくのが特徴で、 2種類、5種類、100 種類、 というように指定すると、 アルゴリズムがセントロイドと呼ばれる 中心点を出します。 これは、多次元空間における 平均のようなものです。 その数は、指定に応じていくらでも 増やすことができます。 ここに新しいデータを入れると、 その位置に最も近いセントロイドの カテゴリーに割り当てられます。 カテゴリーは、2種類、5種類、 100 種類など、自由に決められます。 もう1つの方法は、k(ケー)近傍法です。 この方法は、データを 多次元空間にプロットして、 分類したいデータから近い順に、…

目次