コース: データサイエンスの基礎:基本

今すぐコースを受講しましょう

今すぐ登録して、23,200件以上登録されている、業界エキスパート指導のコースを受講しましょう。

社内データを利用する

社内データを利用する

データサイエンスのプロジェクトは、 壮大な探検のように 果てしないこともあれば、 時には、探している鉱脈が 自分たちのすぐ足元に 埋もれている場合もあります。 必要なデータが、すでに社内の どこかにあるかもしれないのです。 社内のデータが適切な形式で 保存されていれば、 すぐに分析を開始することが可能です。 また、個人情報の保護について 定めている一部の法規制に縛られない 利点もあるかもしれません。 自社固有の目的のために集めた データを自社の中だけで利用する場合、 このような規制が必ずしも該当しない 可能性があるからです。 つまり、社内のデータなら、 ある程度自由がきくのです。 さらに、データの作成者とも話が できるかもしれません。 データを集めた社員が まだ社内にいれば、 詳しい経緯を尋ねることができます。 ほかのデータよりも自由に扱えて、 しかも最初に収集した人たちとも 話ができるデータが、 プロジェクトの開始時から 手に入るとすれば、 こんないいことはありません。 いろいろなピースがぴたりと はまりやすくなるからです。 共通のコードやソフトウェアを使い、 同じスタンダードに準拠している データなら、膨大な時間の節約になります。 そんなデータが自社の社内に 存在しているなら、幸先は上々です。 一方、社内データに頼ることには マイナス面もあります。 例えば、とりあえずの目的のために 収集されたデータの場合、きちんとした 説明がないこともよくあります。 ほかの誰かが見ることを 想定していないため、 説明自体がないデータも あるかもしれません。 また、データの管理が 行き届いていない場合もあります。 必要なラベルがついていなかったり、 データが古すぎたり、 そのことがわからなかったりします。 そして、社内データで最大の問題が、 そもそもデータが存在していないので 使えないという場合です。 さて、この「存在していない」という 問題を考えるにあたり、 注目したいのがダークデータです。 ダークデータとは、 実際には存在しているものの、 組織の情報分析や意思決定などに まったく活用されていない データのことです。 目で見て確認はできないものの、 理論的には宇宙全体に存在する物質の 85%ほどを占めていると 推測されている暗黒物質、 ダークマターのようなものです。…

目次