コース: データサイエンスの基礎:基本

今すぐコースを受講しましょう

今すぐ登録して、23,200件以上登録されている、業界エキスパート指導のコースを受講しましょう。

データを準備する

データを準備する

料理をする人なら、食事の支度に どれだけ時間がかかるかはわかるでしょう。 実際の調理にかかる時間だけでなく、 買い出しに行って必要な材料を揃え、 それぞれをお皿に入れて並べるまでにも、 多くの手間が必要です。 同様のことは、データサイエンスにも 当てはまります。 データの準備にかかる時間の長さです。 おおよその目安としては、 データサイエンスのプロジェクトにかかる 時間のうち、実に 80%が データの準備に費やされています。 データの準備だけで 80%、 それ以外のあらゆる作業が合計で 20%です。 この数字は、 とてつもなく非効率的に聞こえます。 そんなに時間のかかる退屈な作業を なぜわざわざするのかと 思われるかもしれません。 その理由は、GIGO(ギゴ)、すなわち 「無意味なデータは無意味な結果しか 生まない」からです。 コンピューターサイエンスの 世界では常識で、 分析の結果として得られる情報の質が、 入力する情報の質以上に よくなることはないのです。 Twitter でも、さらに厳しい 次のような言葉が話題になりました。 「機械学習や AI をやりたがる人たちの 大部分は、きちんとクリーニングした データで線形回帰をするだけでいい」 というのです。 線形回帰は、ごく初歩的で シンプルなのに役立つ手法です。 この言葉が私たちに教えてくれるのは、 データの準備さえしっかり行っていれば、 そこからの分析は手早く簡単かつ 明瞭に進められ、 結果の解釈も容易だという、 経験的なアドバイスです。 さて、データの準備については、 「整ったデータ」という表現も よく聞きます。 これは、ハドリー・ウィッカムという データサイエンティストが言った 「タイディーデータ」という言葉が 元になっていて、プログラムへの インポートや処理がスムーズにできる 状態になったデータを意味しています。 整ったデータにするためには、 次のような原則があります。 まず、データの各列がそれぞれ 特定の変数に対応していること、 そして、データの各行が それぞれ特定のケース、つまり 観測対象に対応していることです。 さらに、シートは1つずつ 独立したファイルにします。 Excel(エクセル)ファイルは 複数のシートで構成することもできますが、 CSV(シーエスブイ)ファイルは 1シートです。…

目次