یادگیری نظارت شده
در یادگیری نظارت شده کار با ایمپورت کردن مجموعه دادههای شامل ویژگیهای آموزش (training attributes) و ویژگیهای هدف (target attributes) آغاز میشود. الگوریتم یادگیری نظارت شده رابطه بین مثالهای آموزش و متغیرهای هدف مختص آنها را به دست میآورد و آن رابطه یاد گرفته شده را برای دستهبندی ورودیهای کاملا جدید مورد استفاده قرار میدهد.
یادگیری نظارت شده
یادگیری نظارت شده که به انگلیسی superviser learning است. برای نمایش اینکه یادگیری نظارت شده چگونه کار میکند، یک مثال از پیشبینی نمرات دانشآموزان بر پایه ساعات مطالعه آنها ارائه میشود: Y=F(X)+C
که در آن:
- F رابطه بین نمرات تعداد ساعاتی است که دانش آموزان به منظور آماده شدن برای امتحانات به مطالعه میپردازند.
- X ورودی است. (تعداد ساعت)
- Y خروجی است. (نمرات کسب شده)
- C یک خطای تصادفی است.
هدف نهایی یادگیری نظارت شده پیشبینی Y با حداکثر دقت برای ورودی جدید داده شده X است. چندین راه برای پیادهسازی یادگیری نظارت شده وجود دارد. برخی از متداولترین رویکردها در ادامه مورد بررسی قرار میگیرند. برپایه مجموعه داده موجود، مساله یادگیری ماشین در دو نوع دستهبندی (Classification) و رگرسیون (Regression) قرار میگیرد. اگر دادههای موجود دارای مقادیر ورودی (آموزش) و خروجی (هدف) بشوند، مساله از نوع دستهبندی است.
دستهبندی
مثالی مفروض است که در آن یک پژوهشگر حوزه پزشکی میخواهد. دادههای سرطان سینه را بهمنظور پیشبینی اینکه بیمار کدام یک از سه نوع درمان را باید دریافت کند، مورد تحلیل قرار دهد. این وظیفه تحلیل داده «دستهبندی» (Classification) نامیده و در آن یک مدل یا «دستهبند» (Classifier) به منظور پیشبینی برچسبهای دسته (کلاس) مانند «درمان A» (همان treatment A)، درمان B (همان treatment B) یا درمان C (همان treatment C) ساخته میشود. دستهبندی یک مساله پیشبینی است که برچسبهای کلاس دستهای را که گسسته یا بدون ترتیب هستند پیشبینی میکند. این یک فرآیند دو مرحلهای است که شامل مرحله یادگیری و دستهبندی میشود.
در ارتباط با شاخههای مختلف هوش مصنوعی در این لینک بیشتر بخوانید.



















آیا ترکیب چند مدل همیشه به دقت بهتر منجر میشه؟
نه همیشه، گاهی مدلهای مشابه باعث خطای همجهت میشن. تنوع مدلها و دادهها شرط افزایش دقت است.
آیا همیشه نیاز به نرمالسازی دادهها قبل از آموزش مدل هست؟
برای الگوریتمهای مبتنی بر فاصله یا گرادیان معمولاً بله، ولی برای مدلهای درختی نه الزامی نیست.
انتخاب ویژگی چطور روی دقت مدل تاثیر میذاره؟
ویژگیهای مفید باعث سادهتر و دقیقتر شدن مدل میشه، ویژگیهای اضافی میتونن نویز اضافه کنن.
برای مسائلی که دادهها کمی نویز دارند، کدام الگوریتمها مقاومتر هستند؟
مدلهای درختی، Random Forest و الگوریتمهای Ensemble معمولاً مقاومت بیشتری به نویز دارن.
آیا انتخاب الگوریتم مناسب برای یادگیری نظارتشده بیشتر به نوع داده وابسته است یا به حجم آن؟
هر دو مهماند، ولی نوع داده معمولاً تعیینکننده اصلیه و حجم فقط محدودیت یا مزیت ایجاد میکنه.