コース: データサイエンス入門:基本を理解する

統計とソフトウェアを使用する

コース: データサイエンス入門:基本を理解する

統計とソフトウェアを使用する

現在のデータサイエンスは実務中心で、 ソフトウェアやツールの使用に 重点が置かれています。 初期の考古学者に似ていて、 ソフトウェアは、発掘に必要な刷毛や ツルハシのようなものです。 ツールにばかり気を取られてはいけません。 道具でプロになれるわけではないのです。 データサイエンティストに必要なのは、 ツールではなく科学的手法です。 ツールは基本的に、保存、スクラブ、 分析の3つに分類されます。 データの保存には、データベースや キーバリューストアなどを使います。 Hadoop、Cassandra、 PostgreSQL がよく使われます。 スクラブとは データを扱いやすくすることです。 テキストエディタ、スクリプトツール、 Python や Scala などの プログラミング言語が使われます。 データの分析には 統計パッケージを使います。 オープンソースの R、SPSS、 Python のデータライブラリが よく使われます。 これらを使ってデータを視覚化し、 表やグラフを作成します。 まず、データを保持するためのツールを 説明します。 ビッグデータの課題という言葉があります。 巨大なデータセットなので、 ほとんどのデータベース管理システムは 対応できません。 データサイエンスとビッグデータは 密接なつながりがあるため、 同一視する人もたくさんいます。 しかしデータサイエンスとは 科学的手法をデータに適用することであって 膨大なデータが前提ではありません。 名著「データスマート」は、 スプレッドシートを使った データサイエンスの統計を紹介しています。 とはいえ、ビックデータ関連の分野は 非常に活気づいています。 現在、最もよく使われているのは ハドゥープです。 分散ファイルシステムを使用して、 複数の標準サーバにデータを保存します。 このサーバのグループを ハドゥープクラスターと呼びます。 クラスターはタスクを分割して アプリケーションを実行します。 ペタバイト規模のデータを 何千台ものサーバ上に置くことができ、 クラスター内のデータに対して 処理を実行します。 よく行われる処理は、 MapReduce と Apache Spark の2つです。 マップリデュースはデータをバッチ処理し、 アパッチスパークはデータを リアルタイムで処理します。 収集したデータは 使いにくいことが多いので、 スクラブして使いやすくします。 顧客のツイートを収集しているとします。 ツイッターにはテキストや 画像が流れてきますね。 ツイートを収集する時、受信データを テキストと画像に分類する スクリプトがあると便利です。 データの種類別に分析できる形で、 クラスタに保存できるからです。 これを頻繁に行う場合は、 小さなパイソンアプリケーションを作成して 繰り返し実行できるようにします。 通常、スクラブには時間がかけられます。 データを使いやすくするために 9割の時間をスクラブに費やす人もいます。 それを R や Python を使って 分析します。 アールは統計プログラミング言語で、 データを関連付けして、 相関を割り出すことができます。 結果を視覚的に表示できる機能が 組み込まれていて、 図を含んだ見やすいレポートを 作成できます。 例えば、レポートを作るとします。 会社は、肯定的なコメントと、 時間帯との関係を確認したい と考えています。 その場合、データを Hadoop cluster に キャプチャし、 スクラブして肯定的と否定的に分けます。 最終的に、アールなどの統計パッケージを 使って相関を割り出し、 図の入ったレポートを出力します。 以上はよく使われるツールの一部です。 データサイエンスチームにいれば、 聞いたことがあるでしょう。 データの収集、スクラブ、分析を 自動化するツールは多くあります。 拡大し続ける顧客のために、 多額の資金を投じる組織もあります。 重要なことはあくまでも分析です。 ツールやデータは洞察を得るための 手段にすぎません。 新しいツールの購入は 慎重に行ってください。

目次