コース: データサイエンスの基礎:基本

今すぐコースを受講しましょう

今すぐ登録して、23,200件以上登録されている、業界エキスパート指導のコースを受講しましょう。

データのラベリング

データのラベリング

広い世界を探索すると、現在位置や 周辺の情報が知りたくなります。 データの世界では、 ラベルがその手がかりとなります。 ラベルつきデータを使った 機械学習については、 最初の方のレッスンでも触れましたが、 このラベルを機械に出力させることが 学習の目標となります。 どうすれば、対象の分類や 予測スコアといったラベルを 適切に出力できるようになるかが 肝心なのです。 ラベルとは、道路標識のようなものと 言えるかもしれません。 これは、ソルトレイクシティにある 屋外アート作品です。 ラベルはこのように、 データの中の現在位置や注目すべき情報を 示してくれる役割を持っています。 ただ、データのラベリングには 多くのコツがいります。 洗濯物が色移りしないように 分けることにもコツがいりますが、 せいぜいカゴにいっぱいの洗濯物を 分ける作業です。 しかし、時に何万件から 何億件にもなるデータを扱う プロジェクトの場合、1件ずつ地道に 仕分けをするのは現実的ではありません。 では、効率よくラベリングするには どんな方法があるでしょうか。 最も簡単な方法は、 最初からラベルのついたデータを 手に入れることです。 例えば、返済実績が最初から記入された 金融データセットや、 種(しゅ)のラベルがついた 生物データセットなどがこれにあたります。 入手すればすぐに分析にかけられる このようなデータセットは、 特別なプレゼントのように貴重なものです。 自動的なラベリングも1つの選択肢です。 郵便物を自動で振り分けるような イメージですが、 目的に合うラベリングの仕組みが すでに考案されていることが前提です。 また、自動のラベリングは 100%正確でないことが危惧されるので、 誤分類がどこまでなら許容できるかを 考えておく必要があります。 3つ目はクラウドソーシングです。 Amazon の Mechanical Turk や CrowdFlower といったサービスを 利用すると、データを手分けして 分類してくれる安価な人手を 多数集められます。 いかにも面倒そうですが、 機械学習における有名なデータセットは いくつもこの方法で作られています。 その1つが、デジタル画像の物体認識に 活用できるデータベースとして 2007 年に登場した ImageNet です。 これは、320…

目次