コース: データサイエンスの基礎:基本

今すぐコースを受講しましょう

今すぐ登録して、23,200件以上登録されている、業界エキスパート指導のコースを受講しましょう。

データサイエンスにおける問いの役割

データサイエンスにおける問いの役割

データサイエンティストにとっての 仕事とは、問いに答えることです。 社内のさまざまなところから 依頼を受けて、その問いに応じた データを集め、処理し、分析します。 モデルを1つまたは複数構築して、 プロジェクトの起点になった 問いへの答えを導き出します。 しばらくこの仕事をしていると、 以前に受けたことがある問いが 再び舞い込んだり、答えを出してみると 以前に出したものとよく似た答えに なっていたりということも起こります。 これは、データサイエンスだけでなく 人生全般にも言えることですが、 出す答えだけが価値とは限りません。 未来指向の投資や慈善活動で知られる、 エスター・ダイソンの言葉を紹介します。 「問題の解決策よりも、問題の定義の方が、 未来において希少な資源となる」 というのです。 この意味を考えてみてください。 ダイソンは、 答えや解決策が持っている価値よりも、 それを引き出す問いそのものの価値の方が 大きくなると言っているのです。 これはデータサイエンスにも 当てはまります。 異なる観点から、 データサイエンスのさまざまな アプローチが役立つ新たな問いを 見出せるかが問われているのです。 さまざまな角度から問いのあり方を 見直して、新たにどんな価値を 提供できるかを考えましょう。 例えば、普段使っているツールのことを 考えてみます。 データサイエンスの仕事で日常的に 使っているツール、 何千回と使っているツールは何でしょうか。 例えば、t 検定(ティーけんてい)、 回帰分析、分類、主成分分析、 p 値(ピーち)といったものが よく思い浮かぶでしょう。 結果の解釈はさておき、 それぞれのツールが実際に 何をしているのかを考えてみましょう。 例えば、t 検定は2つのグループの平均値を 比較するもので、ユーザーデザインの分野で 活用される A/B(エービー)テストの 根幹になっています。 t検定にはいくつかの前提条件があって、 データが正規分布に従っていて、 比較するグループのサンプル数が ほぼ同じであり、さらに2つのグループの 分散もほぼ同じでなければ、 正確な結果は得られません。 また、データは互いに独立していることが 前提です。 その上で、t 検定の結果を見ると、 2つのグループの平均値に有意な差が あるかどうかがわかるのです。 重要なのは、t…

目次