コース: データサイエンスの基礎:基本

今すぐコースを受講しましょう

今すぐ登録して、23,200件以上登録されている、業界エキスパート指導のコースを受講しましょう。

クラスタリングとは

クラスタリングとは

人は、ひとりひとりが独自の存在で、 全く同じ人はいません。 もしもこの世界が理想どおりに動くなら、 あなたの組織でもひとりひとりに合わせて、 その人に最適な対応を したいところでしょう。 ただ、現実には さまざまな制約があることから、 重要な点で似ているとされる 人々同士を集めて クラスターにする方法がよく使われます。 例えば、マーケティングでは セグメント別に広告や 販促オファーを企画します。 学校では、極めて高い学力や 芸術的才能を持った生徒のために 特別なカリキュラムを 編成することがあります。 医療現場では、患者を条件の似た グループに分けて 治療方針を決定しています。 ここで、米国をクラスターに 分けるということについて 考えてみましょう。 ご存知のように、 米国には多くの州がありますが、 これを大きく4つの地域にまとめて 区別することもよくあります。 青の南部、赤の西部、 灰色の北東部、黄色の中西部です。 それぞれの特色は、 実際にこの4つの地域を 回ってみるとわかります。 一方、位置的に近いかどうかを 基準としない分け方もあります。 例えば、揃いのユニフォームを着て 互いの動きを連携させている サッカーのチームは、 位置ではなく行動に基づく クラスター分けの例と 言うことができるでしょう。 類似性を判断する基準は、 このような例のほかにも いろいろ考えられます。 これを多次元の空間に 当てはめて考えてみましょう。 基準となる変数の数を k として、 それぞれの事例を k 次元の空間上にプロットします。 変数が5個あるなら、5次元です。 変数が 500 個あるなら、 500 次元です。 次に、それぞれの点同士が どれだけ近いかという距離を求めます。 あらゆる2点間の距離を求めると、 集中しているところと まばらなところがわかります。 距離の求め方はいろいろあります。 一般的に用いられるユークリッド距離は、 多次元空間内の2点を直線で結ぶ長さです。 そのほかにも、マンハッタン距離、 ジャカード距離、コサイン距離、 編集距離などがあり、 持っているデータの性質や目的に合わせて、 最適な求め方を選ぶことができるのです。 それでは、クラスター分析とも呼ばれる クラスタリングの実例を いくつか見てみましょう。 私の専門である心理学の分野では、 人々の性格特性を…

目次