خوشه بندی k-means
خوشهبندي یکی از مهمترین ابزار کشف دادهها است که در کشف هاي تصادفی به کار گرفته میشود. در حال حاضر، اخذ دانش یک گلوگاه عمده در فرآیند مهندسی دانش محسوب میشود. الگوریتمهاي یادگیري ماشین و دادهکاوي با هدف استخراج دانش از دادهها، به عنوان روشی براي حل این مشکل مطرح میباشند. یک رهیافت متداول در این زمینه روش خوشهبندي است که براي تصمیمگیري یا دستهبندي یا کلاسبندي میتواند تصمیمات نمادینی را به نمونههاي جدید با استفاده از نمونههاي موجود منتسب کنند. روشهاي خوشهبندي به واسطه قابلیت درکی که در خود نهفته دارند، از اقبال خوبی برخوردار شدهاند. وجود قابلیت درك از جهات گوناگونی حائز اهمیت می باشد. فهم قلمرو، درك قابلیتهاي کلاسبندي، توجیه تصمیم و بالاخره وجود قوانین نمادینی که میتوانند از روي خوشههاي استخراج شده و سپس در یک سیستم تصمیمگیري مبنی بر قوانین به کار گرفته شوند.
خوشهبندي در واقع یک عملیات غیرنظارتی می باشد. این عملیات هنگامی استفاده میشود که ما به دنبال یافتن گروههایی از دادههاي مشابه میباشیم بدون اینکه از قبل پیشبینی در مورد شباهتهاي موجود داشته باشیم. خوشهبندي معمولاً هنگامی استفاده میشود که به دنبال یافتن گروههایی از مشتریان هستیم که قبلا شناخته نشدهاند. براي مثال میتوان شباهتهاي مشتریان در استفاده از تلفنهمراه را به منظور گروهبندي مشتریان و تشخیص خدمت جدیدي جستجو نمود.
خوشهبندي براي اکثر روشهاي دادهکاوي مثل درختتصمیمگیري و شبکههايعصبی، با یک مجموعه آموزشی شروع کرده و به کمک این مجموعه سعی میشود یک مدل براي بخشبندي دادهها، ایجاد گردد. سپس از آن مدل براي پیشبینی دادههاي جدید استفاده شود.
ورود به نرم افزار آنلاین k-means
خوشهبندی k- میانگین (K-means)
الگوریتم k-میانگین یکی از پرکاربردترین الگوریتمهای خوشهبندی میباشد. حرف k که در این الگوریتم وجود دارد به این واقعیت برمیگردد که این الگوریتم به دنبال تعداد ثابتی از خوشههاست که بر اساس نزدیکی نقاط دادهای به هم تعریف شدهاند. این الگوریتم ابتدا در سال 1987توسط جی.بی مک کوئین[2] به وجود آمد. برای درک سادهتر این الگوریتم یک مثال ساده دو بعدی زده میشود( x1 و x2) ولی روند کار برای بیش از دو متغیر) (x1,x2,…. , نیز همینگونه است.
مراحل k- میانگین (K-means)
- مرحله یک
در اولین مرحله ، الگوریتم به طور تصادفی k نقطه دادهای را انتخاب میکند تا مثل هسته[3] روی آنها کار شود. در این مرحله هرکدام از هستهها یک خوشه نارس هستند.
- مرحله دوم
در این مرحله هر داده را به نزدیک ترین هسته اختصاص میدهد. یک راه برای اینکار یافتن مرز بین خوشههاست. همانطور که در شکل 1 میبینید، مرز بین دو خوشه به نقاطی گفته میشود که با هر خوشه فاصله یکسانی داشته باشند. (یادآوری: دو نقطه A و B را در نظر بگیرید، همه نقاطی که دارای فاصله مساوی با دو نقطه A و B باشند، بر روی یک خط قرار میگیرند که این عمود منصفِ خط واصل A و B میباشد.) در شکل1 هستههای اولیه با خطوط منقطع به هم مرتبط شدهاند؛ مرز خوشههای حاصل هم با خطهای پررنگتر نشان داده شده است که با خطوط منقطع، زاویه قائمه دارند. اگر از این خطوط به عنوان راهنما استفاده شود مشخص است که کدام اطلاعات به کدام هستهها نزدیکتر هستند. در سه بعد این مرزها صفحات صاف خواهند بود و در n بُعد، صفحات مرزی n-1 بُعدی هستند. خوشبختانه، الگوریتمهای کامپیوتری به راحتی میتوانند مسائل چند بُعدی را حل کنند. در شکل 3-9 به دادهای که دور آن مربع کشیده شده است توجه کنید؛ بر اساس هستههای اولیه، این داده به خوشهای که توسط هسته شماره2 کنترل میشود اختصاص یافته است، چرا که به آن هسته بیش از دو هسته دیگر نزدیکتر است. از لحاظ فرمولی فاصله هر داده تا مرکز خوشه از فرمول زیر بهدست میآید. در این فرمول k تعداد هر خوشه،n تعداد دادهها، cjمرکز هر خوشه و xi دادههای هر خوشه (به غیر از مرکز) میباشد.
شکل 1: هستههای اولیه مرزهای خوشههای اولیه را تعیین میکند
- مرحله سه
در این مرحله مرکز ثقل هر خوشه محاسبه میشود. این مراکز ثقل بهتر از هستههای اولیه برای مشخص کردن خوشهها، عمل میکنند. یافتن مرکز ثقل تنها با بهدست آوردن میانگین اندازه هر بُعد برای همه اطلاعات در خوشه انجام میشود. در شکل 2، مرکز های جدید با لوزی نشان داده شده است. پیکان هم نشاندهنده حرکت هستههای اصلی به مرکز جدید خوشههاست.
شکل2- مراکز ثقل نقاطی که به هر خوشه اختصاص یافتهاند محاسبه میشود.
حال این مراکز برای تکرار بعدی الگوریتم، نقش هسته را بازی میکنند. مرحله دوم تکرار میشود و هر نقطه بار دیگر به یک خوشه با نزدیکترین مرکز، اختصاص مییابد. این حلقه همینطور ادامه پیدا میکند تا دیگر هیچ تغییری در خوشهها ایجاد نشود. شکل 3، مرزهای خوشههای جدید را نشان میدهد که مانند قبل، با کشیدن عمود منصفها بین هر مرکز، شکل گرفتهاند.
شکل3- در طی هر تکرار، همه تخصیصهای خوشهها دوباره ارزیابی میشوند
ورود به نرم افزار آنلاین k-means
[1] K-means
[2] J.B.MacQueen
[3] Seed