コース: データサイエンス入門:基本を理解する

構造化データで物事をシンプルにする

コース: データサイエンス入門:基本を理解する

構造化データで物事をシンプルにする

データサイエンスチームは 多種多様なデータを扱います。 データの種類は、データの保存方法を 決める際の重要な要素です。 NoSQL(ノーエスキューエル)などは 柔軟性に優れており、 多様な種類のデータを格納できます。 リレーショナルデータベースは それほど柔軟性は高くありませんが、 多くは取り扱いが容易です。 保存方法を考える時には、データの種類を 理解する必要があります。 ストレージも同じです。 データベースは特定の種類のデータ用に 最適化されています。 水筒に食べ物を入れないように、 リレーショナルデータベースに合わない 種類のデータは入れたくありません。 考慮すべきデータの種類は3つあります。 構造化データ、半構造化データ、 非構造化データです。 1つ目の構造化データは最もシンプルです。 特定の順序で、 特定の形式に従ったデータです。 レンガとモルタルのようなものです。 安価で、柔軟性に欠け、 事前に設計する必要があります。 一例として、 典型的なスプレッドシートがあります。 データを入力する時には、作成済みの構造に 忠実に従う必要があります。 購入日という列を作成したら、 フィールドへは規則通りに 入力しなければなりません。 ここには火曜日または3月と 入力することはできません。 適切な形式に従う必要があります。 行の形式を統一して、年、月、日を スラッシュで区切るなど、 標準的な形式を使用します。 この構造はデータモデルと呼ばれ、 構造化データは、 このデータモデルに依存します。 データモデルは、 リレーショナルデータベースの データスキーマに似ています。 ただし、スキーマはデータベースの 構造全体を定義するという点で、 データモデルとは異なります。 テーブルと関係、 それらの相互作用が含まれます。 データモデルは個々のフィールドの構造を 定義するもので、 各データフィールドに 何を入れるかを定義します。 テキストにするか、数値にするか、 日付にするかはここで決めます。 データモデルを無視した場合に 発生する問題は、 スプレッドシートで試せます。 日付のフィールドに火曜日と入力します。 大抵のスプレッドシートでできるでしょう。 その下の行に3月と入力します。 分かりやすいし、正しいと思いますよね。 問題は後で発生します。 3月の売上のレポートを作成するには、 どうしたらいいでしょうか。 数字の3を入力するか、3月と入力するか。 火曜日とは入力しません。 なぜなら、多くのデータが 無効になるからです。 データのソートやレポート作成を 行うたびに、 無効なデータ行が多数生じます。 データを修正するか レポートから削除する必要があります。 そうならないようデータ形式の規則を定め、 モデルに従って入力するようにするのです。 データベースも同様です。 多くのデータベースは、 モデルに従っていないデータを拒否します。 データの収集に使用する ウェブサイトやミドルウェアでは、 特定の種類や形式が指定されています。 リレーショナルデータベースは 構造化データの収集が得意です。 構造化データは至るところで使われており、 ウェブサイトやアプリが利用する データの多くは、構造化データから 取得されます。 銀行の明細書、フライト情報、 バスの時刻表、個人の住所録も 構造化データの形式です。 ただし、もちろんすべてではありません。 実際、ほとんどのデータは、 特定の形式や構造に従っていません。 興味深いデータの中には 全く構造化されていないものもあります。 動画、写真、音声などは、 定義された構造はありません。 携帯電話から写真をアップロードする場合を 考えてください。 どこでも、何の写真でも 撮ることができます。 写真のクオリティはまちまちです。 ファイルのサイズも大小さまざまです。 データベースがファイルを保存する時に 役立つ構造は含まれていません。 このようなファイルは、データの種類と 収集方法を組み合わせる必要があります。 リレーショナルデータベースでは、 収集できるのは ほぼ構造化されたデータです。 NoSQL(ノーエスキューエル)クラスターは あらゆる種類のデータを扱えますが、 レポート作成が困難です。 これはチームで検討する必要があります。 データサイエンスとは、 データに科学的手法を適用することです。 データは、問いを立てるための 材料となります。 チームで必要な材料は何かを決めることで、 最も興味深い洞察を得ることができます。

目次