خوشهبندی سلسلهمراتبی
]
در داده کاوی و آمار، خوشه بندی سلسلهمراتبی (همچنین به نام تحلیل خوشه سلسلهمراتبی) یک روش خوشهبندی میباشد که هدف آن ساخت یک سلسله مراتب از خوشهها میباشد. روشهای خوشهبندی سلسلهمراتبی به دو دسته تقسیم میشوند:[۱]
- تجمعی: رویکرد این دسته «پایین به بالا» میباشد: با شروع از پایین، در هر مرحله دو خوشه با یکدیگر تجمیع شده و یک خوشه جدید تشکیل میدهند. خوشههای جدید در سطحهای بالاتر قرار گرفته و این روند تکرار میشود.
- تجزیهای: رویکرد این دسته «بالا به پایین» میباشد: با شروع از بالا، در هر مرحله یک خوشه به خوشههای کوچکتری تجزیه میشود که در سطح پایینتر قرار میگیرند.[۲]
هر سطح از سلسلهمراتب یک دستهبندی از دادهها را نمایش میدهد که میتوان به آن به شکل یک درخت نگاه کرد. هر کدام از برگهای درخت نشان دهنده یک مشاهده اولیه میباشند و ریشه درخت مجموعهٔ تمام مشاهدات است. نتایج یک خوشهبندی سلسلهمراتبی عموماً به شکل یک دندروگرام نمایش داده میشوند.[۳]
میزان تفاوت بین خوشهها
[ویرایش]برای این که بفهمیم کدام خوشهها باید با هم تجمیع بشوند یا از یکدیگر تقسیم بشوند باید معیاری از تفاوت بین خوشهها تعریف شود. در اکثر روشها، این معیار به کمک تعریف یک متریک و یک معیار پیوند حاصل میشود. متریک فاصلهٔ بین دو تک مشاهده را تعیین کرده و معیار پیوند فاصلهٔ بین دو مجموعه مشاهده را توسط تابعی از فاصله دو به دو بین مشاهدات هر مجموعه تعریف میکند.[۴]
متریک
[ویرایش]انتخاب یک متریک مناسب شکل خوشهها را تحت تأثیر قرار میدهد، زیرا به ازای یک متریک چند مشاهده میتوانند به یکدیگر نزدیک باشند ولی به ازای متریک دیگری فاصلهٔ آنها از هم افزایش یابد. به عنوان مثال در یک فضای دو بعدی فاصلهٔ بین نقاط (۰و۰) و (۱و۰) بنابر روشهای معمول یک میباشد، اما فاصلهٔ بین دو نقطه (۰و۰) و (۱و۱) با در نظر گرفتن فاصله منهتن ۲ میباشد، با در نظر گرفتن فاصله اقلیدسی رادیکال ۲ میباشد، و با در نظر گرفتن فاصله بیشینه ۱ میباشد.
بعضی از متریکهای رایج برای استفاده در خوشهبندی سلسلهمراتبی:[۵]
نام | فرمول |
---|---|
فاصله اقلیدسی | |
مجذور فاصله اقلیدسی | |
فاصله منهتن | |
فاصله بیشینه | |
فاصله ماهانولوبیس | که در آن ماتریس کوواریانس میباشد. |
برای متون و سایر دادههای غیر عددی، متریکهایی مانند فاصله همینگ یا فاصله لوناشتاین استفاده میشوند.
یک مرور در خوشهبندیهای استفاده شده در تحقیقات سلامت روان نشان میدهد که بیشترین معیار فاصله استفاده شده در مطالعات منتشر شده در آن حوزه از فاصله اقلیدسی یا مجذور آن استفاده میکند.[نیازمند منبع]
معیار پیوند
[ویرایش]معیار پیوند فاصلهٔ بین دو مجموعه مشاهده را توسط تابعی از فاصله دو به دو بین مشاهدات هر مجموعه تعریف میکند.
بعضی از معیارهای پیوند رایج بین دو مجموعه مشاهده A و B:[۶][۷]
نام | فرمول |
---|---|
بیشینه فاصله | |
کمینه فاصله یا خوشهبندی تکپیوندی | |
میانگین فاصله یا روش جفت گروه بدون وزن با میانگین حسابی | |
فاصله مرکزوار یا UPGMC | که در آن و به ترتیب مرکزوارهای خوشههای s و t میباشند. |
کمترین انرژی |
که در آنها d متریک است.
خوشهبندی تجمعی
[ویرایش]خوشهبندی تجمعی با یک خوشه به ازای هر مشاهده شروع شده و در هر مرحله، دو خوشه که کمترین تفاوت را با یکدیگر دارند تجمیع شده و یک خوشه بزرگتر را تشکیل میدهند. این کار باعث میشود تا در سطح بالاتر یک خوشه کمتر وجود داشته باشد و تا زمانی که تعداد خوشهها به یک برسد این کار ادامه پیدا میکند.
مثال
[ویرایش]دادههای زیر را با متریک فاصلهٔ اقلیدسی و معیار پیوند میانگین خوشهبندی میکنیم.
به ازای دادههای زیر درخت سلسلهمراتبی نیز به شکل زیر میباشد.
- نحوهٔ خوشهبندی
- {b} و {c} با یکدیگر تجمیع میشوند
- {d} و {e} با یکدیگر تجمیع میشوند
- {f} با مجموعه {d,e} تجمیع میشود
- مجموعه {d,e،f} و {b,c} با یکدیگر تجمیع میشوند
- مجموعه {b,c،d,e،f} و {a} با یکدیگر تجمیع میشوند
خوشهبندی تجزیهای
[ویرایش]خوشهبندی تجزیهای با یک خوشه که شامل تمامی مشاهدات میباشد شروع شده و سپس بهطور بازگشتی یکی از خوشههای موجود را به خوشههای کوچکتری تقسیم میکند. یکی از برتریهای این روش نسبت به خوشهبندی تجمعی برای مواردی است که بخواهیم دادهها را به تعداد کمی خوشه تجزیه کنیم. برای تجزیه هر خوشه میتوان از الگوریتمهای متفاوتی مانند K-Means یا K-Medoids با K=۲ استفاده کرد. بهطور کلی هر الگوریتم خوشهبندی که حداقل دو خوشه خروجی تولید میکند در خوشهبندی تجزیهای قابل استفاده است.
جستارهای وابسته
[ویرایش]منابع
[ویرایش]- ↑ Rokach, Lior, and Oded Maimon.
- ↑ Nielsen, Frank (2016). "8. Hierarchical Clustering". Introduction to HPC with MPI for Data Science. Springer. pp. 195–211. ISBN 978-3-319-21903-5.
- ↑ "The CLUSTER Procedure: Clustering Methods". SAS/STAT 9.2 Users Guide. SAS Institute. Retrieved 2009-04-26.
- ↑ Székely, G. J.; Rizzo, M. L. (2005). "Hierarchical clustering via Joint Between-Within Distances: Extending Ward's Minimum Variance Method". Journal of Classification. 22 (2): 151–183. doi:10.1007/s00357-005-0012-9. S2CID 206960007.
- ↑ "The DISTANCE Procedure: Proximity Measures". SAS/STAT 9.2 Users Guide. SAS Institute. Retrieved 2009-04-26.
- ↑ "The CLUSTER Procedure: Clustering Methods". SAS/STAT 9.2 Users Guide. SAS Institute. Retrieved 2009-04-26.
- ↑ Székely, G. J. and Rizzo, M. L. (2005) Hierarchical clustering via Joint Between-Within Distances: Extending Ward's Minimum Variance Method, Journal of Classification 22, 151-183.
برای مطالعهٔ بیشتر
[ویرایش]- Kaufman, L.; Rousseeuw, P.J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis (1 ed.). New York: John Wiley. ISBN 0-471-87876-6.
- Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "14.3.12 Hierarchical clustering". The Elements of Statistical Learning (2nd ed.). New York: Springer. pp. 520–528. ISBN 0-387-84857-6. Archived from the original (PDF) on 10 November 2009. Retrieved 2009-10-20.