コース: データサイエンスの基礎:基本

今すぐコースを受講しましょう

今すぐ登録して、23,200件以上登録されている、業界エキスパート指導のコースを受講しましょう。

偏りとは

偏りとは

データサイエンスプロジェクトは、 どんなに考えて手をかけていても、 時に迷走してとんでもない結果を はじき出すことがあります。 このように画面が乱れたりすれば、 プロジェクトに問題が生じていることは ひと目でわかりますが、 すぐに異常とは気づきにくい アルゴリズムの偏りもあって、 厄介な問題になっています。 過去の有名な事例をいくつか紹介します。 2016 年、Microsoft が Twitter に公開した チャットボットのテイは、 わずか 12 時間で女性蔑視、 反ユダヤ的な発言や、陰謀論を 連発するようになって停止されました。 COMPAS(コンパス)というソフトウェアは、 刑事裁判の被告人の再犯リスクを 統計的に算定するもので、 米国の一部地域の裁判所で 使用されていますが、 人種によって再犯リスクが異なるという、 偏った不正確な予測値を出していました。 独立系調査報道機関の ProPublica(プロパブリカ)によると、 実際には2年間再犯がなかった 被告の再犯リスクが、 黒人の場合は白人の2倍近いレベルと されていたことがわかりました。 45%対 23%です。 さらに、米国の一部の都市で 導入されていた犯罪予測 AI の PredPol(プレッドポル)は、 マイノリティ住民が多い地区に 実際よりも高い予測値を出して 警備を強化させていることがわかりました。 もう1つの例は、 Google の求人情報システムです。 検索するユーザーが男性の場合、 女性よりはるかに多くの高賃金求人が 表示されていました。 どれも有名なミスで、 ほとんどが適切に対処されましたが、 ここで心に留めておきたいのは、 偏りの原因にもいくつかの種類が あるということです。 その中で、データサイエンスの観点から まず知っておきたいのが、 テクニカルな問題です。 例えば、使用する訓練データのばらつきは 範囲が決まっていて、 その範囲を逸脱するデータについては、 推計がうまくできないという 問題があります。 また、サンプルサイズが小さいと、 統計的なアーティファクトの問題も 起こります。 信頼区間を利用するアルゴリズムで、 ほかよりもサンプルサイズが はるかに小さいグループがあると、 信頼区間が実際よりも 大きくなってしまいます。 この場合、例えば 「ローンの返済が見込める可能性が…

目次