コース: データサイエンスの基礎:基本

解釈可能性が重要である理由

プロジェクトが一段落したとします。 計画作りに始まって、 データを収集し、 クリーニングし、整理する作業、 モデルを構築し、 それを検証する作業も終わりました。 あとはリボンを飾るだけ といったところでしょうか。 実は、最後に考えなければならない 重要な問題が残っています。 この件で、決定の主体は 誰になるでしょうか。 データ分析の成果や得られた知見は、 誰が利用するのでしょうか。 その答えによって、 すべきことが変わります。 得られた成果に基づいて判断を 実行する主体がアルゴリズムと 決まっている場合もあるでしょう。 例えば、おすすめの商品が自動的に 表示されるシステムや、 住宅ローンのサイトに利用者が アクセスするとその場で予備審査が 受けられるシステムなどが、 これにあたります。 このようなシステムでは、 処理を行う機械に対して そのモデルが持つ意味を説明する 必要はありません。 アルゴリズムを適切に設定して データを入れれば、 あとは黙々と動いてくれます。 人間には簡単に意味が理解できない 複雑なモデルを作ったり 適用したりすることも、 コンピューターやアルゴリズムには 難なくできてしまいます。 プロジェクトから得られた分析結果を アルゴリズムに実行させるだけなら、 解釈しやすいモデルになっているか どうかを気にする必要はないのです。 機械にとって、解釈や理解は 重要ではないからです。 しかし、成果を利用する主体が 人である場合は、モデルの考え方を 説明する必要があります。 その結果がどのように導かれたかを 理解することで、人はその情報を 自分のものとしたり、新たな状況に 当てはめたりすることが できるようになります。 重要なのは、原理を理解することなので、 それをデータサイエンスプロジェクトの 成果として説明しなければならないのです。 ここで問題となるのは、 解釈の容易さがまちまちであることです。 画面の図は、前にも紹介した決定木で、 アヤメの花を3つの品種に 分類する方法を示しています。 必要な決定は3回だけで、 まず、花弁の長さを見ます。 花弁が長いものについては、 次に花弁の幅を見ます。 幅が狭いなら、 もう1度花弁の長さを見ます。 こうすると、分類がとてもうまくできます。 非常にシンプルで人にも わかりやすい仕組みなので、 誰でも実践できます。 これとは対照的に、きわめて解釈が 難しい結果もあります。 これも、コースの中で例示した 決定木ですが、 非常に複雑で、普通の感覚では とうてい理解できませんし、 実践することもままなりません。 ディープラーニングのように、 もっと途方もなく複雑なアルゴリズムを 生成する手法も、 データサイエンスにはあります。 そんなアルゴリズムがどう働いているのか、 何を根拠として何の役に立つのかを、 人に説明するのは至難の業でしょう。 つまり、分析においては、 解釈のしやすさを意味する 解釈可能性が非常に重要だということです。 データサイエンスでは、 プロジェクトの成果を わかりやすいストーリーとして説明し、 それを元に合理的な提案が できなければなりません。 筋道の立った、論旨が明確で、 説得力のあるストーリーにすることで、 はじめてプロジェクトの成果を 目に見える価値として示すことが できるのです。

目次