コース: ビッグデータの基礎:手法と概念

今すぐコースを受講しましょう

今すぐ登録して、23,100件以上登録されている、業界エキスパート指導のコースを受講しましょう。

データサイエンスに該当しないビッグデータ

データサイエンスに該当しないビッグデータ

ビッグデータを使わない データサイエンスに続いて、 逆側の話をします。 ビッグデータを扱う仕事でも、 3つのスキルのすべては 要求されない場合です。 前提として、ビッグデータは量、速度、 種類がきわめて大きいのが 一般的であると説明しました。 データサイエンスのベン図では、 統計学、専門知識、 コーディングスキルの組み合わせが データサイエンスになります。 このうち2つだけで ビッグデータは扱えるかというと、 統計学とコーディングなら、 機械学習の領域なので、もちろん扱えます。 プログラムに新しい情報への対応を 教える機械学習は、データサイエンスでも 重要な分野です。 よく知られた例が、利用者の反応を 学習しながら判定精度を高める 迷惑メールフィルターです。 Gmail のようなプログラムは、 無数の利用者のデータを使っています。 写真の顔と名前の結びつきを 学習する顔認識も機械学習の例です。 これは、AI と機械学習全般について 書かれた論文です。 この論文は、コンピューターによる 顔認識の学習にも触れています。 面白いのは、 人間にとって簡単な顔認識が、 コンピューターには難しいことです。 量、速度、種類が膨大になる場合も多い 機械学習は、ビッグデータの好例ですが、 専門知識は特別必要ありません。 コンピューターは知識がなくても 処理を学習できるからです。 ビッグデータを扱える もう1つの組み合わせが、 専門知識とコーディングです。 この図を考えたコンウェイが、 「危険」と呼んだ領域ですが、 統計学を使わない データサイエンスもあります。 最も代表的な応用例が、 語数カウントと自然言語解析で、 NLTK というツールが 広く利用されています。 Python で動作するツールで、 さまざまなことが可能です。 語数カウントもその1つで、 古くは、米国の憲政史に残る文献の筆者を 割り出した解析が有名です。 最近では、ヒップホップシンガーの歌詞を 単語の長さで比較する といった研究も行われています。 このように、統計学を使った推定を 行わなくても、自然言語に含まれる 単語の出現頻度を測定するだけで、 すばらしい発見がいろいろとあります。 データサイエンスのスキルを 2種類組み合わせた例を、 2通り見てきました。 残る1つは、統計学と 専門知識の組み合わせ、つまり、…

目次