コース: データ分析入門

データをクリーニングする

コース: データ分析入門

データをクリーニングする

レポートやグラフを すぐに作成できるよう、 データが整っていればいいのですが、 実際はなかなかそうではありません。 ここでは、データのクリーニングについて 解説しましょう。 会社組織と業務プロセスは 20 年、30 年また 100 年以上続く その歴史の中で変化します。 データ分析では、組織や業務プロセスが 変更された頻度と データへの影響を考える必要があります。 データアナリストは 効果的なデータクリーニングの ポイントを知り、直面する各データの 課題に応じた最適な手法を使い分けることが 必要になります。 データクリーニングとは一体何でしょう? 一般的にデータクリーニングとは、 データ内の欠損・誤り・不明瞭・ 無関係な部分などを特定し、 置換・変更・削除して標準化することです。 代表的なデータクリーニングのひとつは、 エラーの除去です。 入力管理が不十分なデータには エラーが含まれる可能性があるため、 実行するプロセス手順の中で エラーの除去を行います。 2つ目は検証です。 検証はデータの妥当性を確認済みの 事実と突き合わせる作業です。 そして3つ目は標準化です。 例えば、株式会社の略称は、 (株) にするなど、決められたルールを作り ルールに従っていないデータを 見つけて修正しデータを整えます。 データクリーニングの具体的な例を 見てみましょう。 ひとつは特定の項目の絞り込みです。 例えば、1000 以上ある列の中から、 必要な5列の項目だけを残します。 2つ目は意味のわかりやすい データ内容にすることです。 例えば「A」と「P」 で記述されたデータを 「午前」「午後」に修正するなどです。 3つ目はプロパティで 並び替えすることです。 問題のあるデータが見つけやすくなります。 そして、4つ目は列の分割です。 例えば、住所を都道府県とそれ以外に 分割し、並び替えやすくするなどです。 データクリーニングの目的は、 高品質なデータを最初に用意し、 信頼性の高い分析が できるようにすることです。 自信を持って的確な分析ができるよう データクリーニングを行いましょう。

目次