machine unlearning چیست؟
اخیراً تعداد فزایندهای از قوانین بر قابلیت استفاده از حریم خصوصی کاربران حاکم شدهاند و در دههی اخیر، بیش از هر زمان دیگری به حریم خصوصی کاربران در فضای مجازی و امنیت دادههای آنان پرداخته شده است. به عنوان مثال، ماده 17 قانون حفاظت از دادههای عمومی (GDPR) که حق فراموش شدن است، برنامههای کاربردی یادگیری ماشین را ملزم میکند که بخشی از دادهها را از مجموعه داده حذف کنند و در صورت لزوم آن را دوباره آموزش دهند. علاوه بر این، از منظر امنیتی، دادههای آموزشی برای مدلهای یادگیری ماشین، یعنی دادههایی که شاید حریم خصوصی کاربر هستند، باید به طور موثر محافظت شوند، از جمله رویکردهای مناسبی برای machine unlearning. بنابراین، محققان روشهای مختلف حفظ حریم خصوصی را برای مقابله با مسائلی مانند یادگیری ماشینی پیشنهاد میکنند. هوش مصنوعی باید یاد بگیرد که چگونه اطلاعات را فراموش کند!
machine unlearning چیست؟
حتما شما هم شنیدهاید که وقتی چیزی در اینترنت است، واقعاً نمیتوان آن را حذف کرد. عکسی که در آن ژولیده به نظر میرسید و مربوط به نوجوانی شماست یا آن توییت نامناسبی که وقتی عصبانی بودید پست کردید، اکنون برای همیشه بخشی از ردپای دیجیتال شماست. حتی اگر بخواهید آن را حذف کنید، هیچ تضمینی وجود ندارد که کسی از آن اسکرین شات نگرفته یا آن را در گوشهای از اینترنت بازنشر نکرده است! اما چرا این موضوع اهمیت دارد و ربط آن به machine unlearning چیست؟
machine unlearning برای عصر ما یک ضرورت است!
ابزارهای هوش مصنوعی (AI) از همه نوع معمولاً بر روی دادههایی که از اینترنت به دست میآیند آموزش داده میشوند. دادهها، همانطور که در بالا بحث کردیم، چیزی نیست که یک فرد معمولی، دوست دارد که دادههایش به اشتراک گذاشته شود. با این حال، اگر ایده هوش مصنوعی که همه چیز را در مورد شما میداند وحشتناک به نظر میرسد، حذف یادگیری ماشینی یا همان machine unlearning اینجاست تا به شما کمک کند. machine unlearning حوزهای از علوم کامپیوتر است که به دنبال القای فراموشی انتخابی در ابزارهای هوش مصنوعی است تا بتوانند افراد خاص یا تکههایی از اطلاعات را بدون تأثیر منفی بر عملکرد ابزار هوش مصنوعی فراموش کنند. بیایید نگاهی دقیقتر به این موضوع بیندازیم که چرا machine unlearning اهمیت دارد و چرا دستیابی به آن یک چالش بوده است.
چرا ماشینها باید آموزش ببینند تا فراموش کنند؟
یکی از بزرگترین دلایلی که هوش مصنوعی به حذف اطلاعات نیاز دارد، افزایش تقاضا برای «حق فراموش شدن» است. حق فراموش شدن به توانایی دریافت اطلاعاتی درباره حذف شما از اینترنت در شرایط استثنایی اشاره دارد. این امر به ویژه در صنایعی مانند مراقبتهای بهداشتی که در آن اطلاعات حساس در طول فرآیند آموزش به هوش مصنوعی داده میشود، بسیار مهم است. برخی تلاشها در حال انجام است تا از حق فراموشی مردم محافظت شود. به عنوان مثال، در دسامبر 2022، اتحادیه اروپا به شهروندان خود این حق را داد که هرگونه اطلاعات نادرست منتشر شده در مورد آنها در اینترنت را از گوگل و سایر موتورهای جستجو حذف کنند.
نیاز به حذف اطلاعات حساس فقط محدود به افراد نیست. شرکتها و ارگانهای دولتی نیز به آن نیاز دارند. اگر یک ابزار هوش مصنوعی هک شود، اطلاعات حساسی که برای آموزش هوش مصنوعی استفاده شده است ممکن است به بیرون درز کند و مورد سوء استفاده قرار گیرد و منجر به عواقب فاجعهباری برای شرکتی شود که این هوش مصنوعی را راهاندازی میکند. در نتیجه، شرکتها نسبت به اطلاعات نگهداری شده توسط سیستمهای هوش مصنوعی هوشیار میشوند. به عنوان مثال، در سال 2021، تنظیم کننده دادههای بریتانیا به شرکتها هشدار داد که سیستمهای هوش مصنوعی آنها ممکن است در معرض حذف دادهها قرار گیرد. به طور مشابه، در همان سال، کمیسیون تجارت فدرال ایالات متحده (FTC) برنامه ذخیره سازی ابری Ever را هم دادههای کاربر و هم هر الگوریتم آموزش داده شده بر روی دادههای مذکور را حذف کرد.
چالشهای machine unlearning
اکنون که متوجه شدیم چرا یادگیری غیرقابل یادگیری ماشینی مهم است، سوال بعدی این است: چگونه میتوان ماشینها را برای یادگیری غیرقابل آموزش آموزش داد؟ اگر تا به حال سعی کردهاید به عمد چیزی را فراموش کنید، میدانید چقدر سخت است که چیزی را فراموش کنید. به همان اندازه سخت است که یک ماشین اطلاعات را از یاد نگیرد. این به این دلیل است که هنگامی که یک قطعه اطلاعات به یک هوش مصنوعی داده میشود، هیچ راهی برای دانستن اینکه کجا در داخل هوش مصنوعی قرار دارد وجود ندارد. علاوه بر این، ما نمیدانیم که یک نقطه داده خاص چگونه بر هوش مصنوعی کلی تأثیر میگذارد. اگر یک قطعه کلیدی از دادهها حذف شود، میتواند کل سیستم هوش مصنوعی را مختل کند. بنابراین، اگر سیستمی مجبور شود، برخی اطلاعات را فراموش کند، دانشمندان داده باید هوش مصنوعی را از ابتدا بازسازی کنند.
تلاشها در جهت یادگیری machine unlearning
اگرچه این فرآیند دارای چالشهایی است، اما تلاشهایی برای ایجاد یک سیستم یادگیری ماشینی با قابلیت فراموش کردن اطلاعات صورت گرفته است. به عنوان مثال، محققین Yinzhi Cao و Junfeng Yang، که در اصل واژه «لغو یادگیری ماشینی» را ابداع کردند، رویکردی را برای حذف وابستگی الگوریتم یادگیری ماشین به دادههای آموزشی در سال 2015 ابداع کردند. رویکرد آنها نتایج مثبتی را در چهار سیستم یادگیری ماشین به همراه داشته است. به طور مشابه، در سال 2019، محققان دانشگاه تورنتو، کانادا و دانشگاه ویسکانسین-مدیسون در ایالات متحده نیز به این ایده رسیدند که دادههای تغذیه شده به سیستمهای یادگیری ماشینی را به چند قسمت تقسیم کنند. به این ترتیب، هر نقطه داده به طور جداگانه پردازش میشود و اگر یکی از آنها بعداً حذف شود، عملکرد سایر نقاط را مختل نمیکند.
با این حال، این رویکردها هنوز در مراحل اولیه خود هستند. هیچ یک از آنها به این نگرانی که چگونه تصمیم بگیریم چه چیزی را باید به خاطر بسپاریم و چه چیزی را باید فراموش کنیم، نمیپردازند. بنابراین، ممکن است مدتی طول بکشد تا فراموش کردن یادگیری ماشینی رایجتر شود. تا زمانی که این اتفاق نیفتد، کاربران سیستمهای هوش مصنوعی، چه افراد یا شرکتها، باید در وهله اول مسئولیت نوع دادههایی را که با این سیستمها به اشتراک میگذارند، بر عهده بگیرند. امیدواریم که روزی machine unlearning به جایی برسد که کاربران عادی دیگر با شنیدن عبارت هوش مصنوعی، به یاد نابودی بشریت و سواستفاده از اطلاعاتشان نیفتند!
ارسال پاسخ