統計とソフトウェアを使用する

コース: データサイエンス入門：基本を理解する

統計とソフトウェアを使用する

“

現在のデータサイエンスは実務中心で、ソフトウェアやツールの使用に重点が置かれています。初期の考古学者に似ていて、ソフトウェアは、発掘に必要な刷毛やツルハシのようなものです。ツールにばかり気を取られてはいけません。道具でプロになれるわけではないのです。データサイエンティストに必要なのは、ツールではなく科学的手法です。ツールは基本的に、保存、スクラブ、分析の３つに分類されます。データの保存には、データベースやキーバリューストアなどを使います。 Hadoop、Cassandra、 PostgreSQL がよく使われます。スクラブとはデータを扱いやすくすることです。テキストエディタ、スクリプトツール、 Python や Scala などのプログラミング言語が使われます。データの分析には統計パッケージを使います。オープンソースの R、SPSS、 Python のデータライブラリがよく使われます。これらを使ってデータを視覚化し、表やグラフを作成します。まず、データを保持するためのツールを説明します。ビッグデータの課題という言葉があります。巨大なデータセットなので、ほとんどのデータベース管理システムは対応できません。データサイエンスとビッグデータは密接なつながりがあるため、同一視する人もたくさんいます。しかしデータサイエンスとは科学的手法をデータに適用することであって膨大なデータが前提ではありません。名著「データスマート」は、スプレッドシートを使ったデータサイエンスの統計を紹介しています。とはいえ、ビックデータ関連の分野は非常に活気づいています。現在、最もよく使われているのはハドゥープです。分散ファイルシステムを使用して、複数の標準サーバにデータを保存します。このサーバのグループをハドゥープクラスターと呼びます。クラスターはタスクを分割してアプリケーションを実行します。ペタバイト規模のデータを何千台ものサーバ上に置くことができ、クラスター内のデータに対して処理を実行します。よく行われる処理は、 MapReduce と Apache Spark の２つです。マップリデュースはデータをバッチ処理し、アパッチスパークはデータをリアルタイムで処理します。収集したデータは使いにくいことが多いので、スクラブして使いやすくします。顧客のツイートを収集しているとします。ツイッターにはテキストや画像が流れてきますね。ツイートを収集する時、受信データをテキストと画像に分類するスクリプトがあると便利です。データの種類別に分析できる形で、クラスタに保存できるからです。これを頻繁に行う場合は、小さなパイソンアプリケーションを作成して繰り返し実行できるようにします。通常、スクラブには時間がかけられます。データを使いやすくするために９割の時間をスクラブに費やす人もいます。それを R や Python を使って分析します。アールは統計プログラミング言語で、データを関連付けして、相関を割り出すことができます。結果を視覚的に表示できる機能が組み込まれていて、図を含んだ見やすいレポートを作成できます。例えば、レポートを作るとします。会社は、肯定的なコメントと、時間帯との関係を確認したいと考えています。その場合、データを Hadoop cluster にキャプチャし、スクラブして肯定的と否定的に分けます。最終的に、アールなどの統計パッケージを使って相関を割り出し、図の入ったレポートを出力します。以上はよく使われるツールの一部です。データサイエンスチームにいれば、聞いたことがあるでしょう。データの収集、スクラブ、分析を自動化するツールは多くあります。拡大し続ける顧客のために、多額の資金を投じる組織もあります。重要なことはあくまでも分析です。ツールやデータは洞察を得るための手段にすぎません。新しいツールの購入は慎重に行ってください。

統計とソフトウェアを使用する

コース: データサイエンス入門：基本を理解する

統計とソフトウェアを使用する

コースをダウンロードして学習しましょう。

目次

ビジネストピックを検索

クリエイティブトピックを検索

テクノロジートピックを検索