یادگیری نظارت نشده
درآموزش قبل که در رابطه با یادگیری نظارتی صحبت کردیم حالا میخواهیم برم سمت یادگیری نظارت نشده. هر مدل ترجمه دیگهای که دوست دارین از این اصلاح لاتین داشته باشین اوکی هست. این سبک یادگیری به ما این اجازه رو میده که بدون ایده کامل از خروجی کار با مسالهای که قصد داریم باهاش دست و پنجه نرم کنیم برخورد کنیم. ما میتوانیم یه سبک و سیاق ساختار داده رو بدون اینکه تاثیرات متغیرهامون رو بدونیم استخراج کنیم. به این صورت که میشه این ساختار رو با استفاده از خوشه بندی دادهها بر مبنای ارتباط متغیرهای دادهمون استخراج کنیم.
یادگیری نظارت نشده
یادگیری نظارت نشده که به زبان انگلیسی Unsupervised Learning است.
مثال 1 (خوشه بندی)
ما یه مجموعه یک میلیونی از ژنهای مختلف داریم و حالا میخواهیم با استفاده از متغیرهای مجموعه دیتایی که داریم. ژنها رو به صورت اتوماتیک و نه دستی بر اساس طول عمر، محل قرارگیری ژن و نقش اون ژن به گروههای مختلف و متنوع تقسیم کنیم.

مثال 2 (غیر خوشه بندی)
الگوریتم Cocktail Party که ما رو قادر میسازه بتونیم ساختار رو تو یه محیط شلوغ و پر ازدحام به دست بیاریم. مثلا تو یه مهونی شلوغ و پرهیاهو شما میتونید فقط به صدای دوستتون گوش کنید. مابقی صداهای مزاحم رو فیلتر کنید (البته این یه عملکرد حساس ذهنی هستش). صورت دیگهی این مساله هم ممکن هست که شما میتونید فقط صدای یک نفر رو که تمایل به شنیدن اون دارید. ولی اون در حال صحبت با شما نیست رو از فاصلهای دورتر گوش کنید و ما بقی صداها رو فیلتر کنید.


اگر علاقهمند به روشهای خوشه بندی شدهاید این مثال را مشاهده کنید. خوشه بندی روی داده buddymove holidayiq در ارتباط با شاخههای مختلف هوش مصنوعی در این لینک بیشتر بخوانید.



















در چه شرایطی بهتره از کاهش ابعاد مثل PCA قبل از خوشهبندی استفاده کنیم؟
وقتی تعداد ویژگیها خیلی زیاده و فاصلهها در فضای پربعد معنیدار نیستن.
برای خوشهبندی دادههای متنی چه رویکردی پیشنهاد میشه؟
استفاده از بردارهای TF-IDF یا Word Embedding و سپس الگوریتمهایی مثل K-Means یا HDBSCAN.
این الگوریتم Cocktail Party در عمل با چه تکنیکهای پردازش سیگنال پیادهسازی میشه؟
با روشهایی مثل Independent Component Analysis (ICA) و Beamforming.
برای دادههای با ابعاد خیلی زیاد، چه الگوریتمهای خوشهبندی کارآمدتر هستن؟
Mini-Batch K-Means، Birch و Spectral Clustering با کاهش بعد اولیه.
چطور میشه بهترین تعداد خوشهها رو در دادهها پیدا کرد؟
با معیارهایی مثل Elbow Method، Silhouette Score یا Gap Statistic.