الگوریتم mlp

الگوریتم mlp

شبکه عصبی پرسپترون چند لایه، دسته‌ای از شبکه‌های عصبی مصنوعی پیشخور محسوب می‌شوند.

در یک شبکه عصبی پرسپترون چند لایه، حداقل سه لایه از نودها وجود خواهند داشت:

یک لایه ورودی (Input Layer).
یک لایه نهان (Hidden Layer).
یک لایه خروجی (Output layer).

نودهای شبکه عصبی که به آن‌ها (Neuron) گفته می‌شود، واحدهای محاسباتی در یک شبکه عصبی محسوب می‌شوند. در این شبکه عصبی، از خروجی‌های لایه اول (ورودی)، به عنوان ورودی‌های لایه بعدی (نهان) استفاده می‌شود. این کار به همین شکل ادامه پیدا می‌کند، تا زمانی که، پس از تعداد خاصی از لایه‌ها، خروجی‌های آخرین لایه نهان به عنوان ورودی‌های لایه خروجی مورد استفاده قرار ‌می‌گیرد. به لایه‌هایی که بین لایه ورودی و لایه خروجی قرار می‌گیرند، لایه‌های نهان (Hidden Layers) گفته می‌شود. شبکه‌های پرسپترون چند لایه، مانند شبکه‌های عصبی پرسپترون تک لایه، حاوی مجموعه‌ای از وزن‌ها نیز هستند که باید برای آموزش و یادگیری شبکه عصبی تنظیم شوند.

شبکه عصبی mlp

الگوریتم پیشخور چیست؟

نخستین بخش در پیاده‌سازی یک شبکه عصبی پرسپترون چند لایه، توسعه الگوریتم پیشخور است. الگوریتم پیشخور، فرآیندی را کنترل می‌کند که در نتیجه آ ورودی‌های مسأله به یک خروجی تبدیل می‌شوند. با این حال، فرآیند پیشخور در شبکه پرسپترون چند لایه، به سادگی شبکه‌های پرسپترون تک لایه نیست. در فرآیند پیشخور در شبکه پرسپترون چند لایه، عملیات تعریف شده در الگوریتم، در تمامی لایه‌های تعریف شده در شبکه انجام می‌شود. در این فرایند، خروجی هر لایه به عنوان ورودی لایه بعدی تعریف می‌شود. برای مشخص کردن خروجی هر لایه، از رابطه‌ای شبیه به رابطه زیر استفاده می‌شود. این فرایند، تا زمانی ادامه پیدا می‌کند که خروجی لایه آخر شبکه (لایه خروجی) تولید شود. خروجی هر کدام از نودهای موجود در هر یک از لایه‌های شبکه عصبی پرسپترون چند لایه، از طریق روابط زیر تولید می‌شود.

$f o r a l l f e a t u r e s o f I n p u t : (I_{1}, I_{2}$ $f u n c t i o n (W^{T} I + B i a s) = (1 + e^{- (W^{T} I + B i a s)})^{- 1}$

با استفاده از عملیات ماتریسی بسته نرم‌افزاری numpy در پایتون، می‌توان مرحله پیشخور در یک شبکه عصبی پرسپترون چند لایه را به صورت زیر پیاده‌سازی کرد.

Python
def feedforward(self, x):
    """
    Predict the output given the inputs
    :param x: input vector of features
    :type x: ndarray
    :return: All activation values and x values.
    """
    self.z0 = np.dot(self.w0, x)
    self.output1 = self.sigmoid(self.z0)
    self.z1 = np.matmul(self.w1, self.output1)
    self.output2 = self.sigmoid(self.z1)
    self.z2 = np.matmul(self.w2, self.output2)
    self.output3 = self.sigmoid(self.z2)
return self.z0, self.output1, self.z1, self.output2, self.z2, self.output3

الگوریتم mlp پس انتشار خطا

پس از محاسبه مقدار زیان در مرحله قبل، این مقدار به صورت معکوس (از لایه خروجی به سمت لایه اول) در شبکه انتشار می‌یابد و با استفاده از مفهوم گرادیان (Gradient) یا شیب، وزن‌های شبکه عصبی پرسپترون چند لایه به روزرسانی می‌شوند. این بخش، مهم‌ترین بخش الگوریتم پس انتشار در آموزش شبکه عصبی پرسپترون چند لایه محسوب می‌شود.

مراحل یادگیری با استفاده از الگوریتم پس انتشار خطا در شبکه عصبی پرسپترون چند لایه به شرح زیر است:

با فرض داشتن تعداد نود لایه نهان و یک نمونه ورودی با تعداد $n$ ویژگی در یک شبکه عصبی پرسپترون چند لایه، خروجی نودهای لایه آخر (لایه خروجی)، از طریق رابطه زیر مشخص می‌شوند. در این رابطه، $y_{i}$ ، خروجی نود $i$ اُم هر کدام از لایه‌های نهان را نشان می‌دهد.

$y_{i} = f (\sum_{j = 1}^{J} w_{j i} y_{j})$

در مرحله بعد، با توجه به مقادیر خروجی مورد انتظار و خروجی پیش‌بینی شده برای هر کدام از نودهای لایه خروجی ( $i$ )، مقدار «دلتا» (Delta) برای هر کدام از نودها، توسط رابطه زیر محاسبه می‌شود. در این رابطه، خروجی مورد انتظار نود $i$ در لایه خروجی و ، خروجی پیش‌بینی شده توسط نود در لایه خروجی است.

$δ_{i} = (y_{p r e d i c t e d} - y_{e x p e c t e d}) \cdot (y_{e x p e c t e d}) \cdot (1 - y_{e x p e c t e d})$

برای هر کدام از نودهای لایه نهان ( $j$ )، مقدار دلتا از طریق رابطه زیر محاسبه می‌شود.

$δ_{j} = (O_{j}) (1 - O_{j}) \sum_{i} w_{j i} δ_{i}$

برای تنظیم کردن وزن‌های تمامی نودها در شبکه عصبی پرسپترون چند لایه، از روش «گرادیان کاهشی» (Gradient Descent) استفاده می‌شود.
در این روش، وزن‌های تمامی نودها از طریق رابطه عمومی زیر تنظیم می‌شوند.

$Δ w_{i j} = η δ_{j} y_{n}$

به طور خاص، برای تنظیم وزن نود از لایه نهان (از نود لایه ورودی به سمت نود لایه نهان)، از رابطه زیر استفاده می‌شود.
در این رابطه، مقدار نود لایه ورودی را نشان می‌دهد.

$Δ w_{n j} = η δ_{j} x_{n}$

هم‌چنین، برای تنظیم وزن نود از لایه خروجی (از نود $j$ لایه نهان به سمت نود لایه خروجی)، از رابطه زیر استفاده می‌شود.
در این رابطه، $O_{j}$ مقدار خروجی نود $j$ لایه نهان را نشان می‌دهد.

$Δ w_{j i} = η δ_{i} O_{j}$

در روابط نمایش داده شده، $η$ نرخ یادگیری شبکه عصبی پرسپترون چند لایه است:

اَبَرپارامتری که برای تنظیم نرخ تغییرات وزن‌های شبکه عصبی مورد استفاده قرار می‌گیرد، معمولا در ابتدای کار شبکه عصبی پرسپترون چند لایه، مقدار کوچکی برای این اَبَرپارامتر در نظر گرفته می‌شود. با این حال، توصیه می‌شود که در طی فرایند یادگیری و با افزایش تعداد تکرارهای این شبکه، به تدریج مقدار این اَبَرپارامتر افزایش پیدا کند. از کدهای زیر، برای پیاده‌سازی الگوریتم پس انتشار خطا در شبکه عصبی پرسپترون چند لایه استفاده می‌شود.

Python
for _ in range(self.itr):
    for xi, target in zip(self.x, self.y):
        self.feedforward(xi)
        cost = target.T - self.output3
for i in range(self.w2.shape[0]):
            self.w2[i] += -self.learn * cost.sum() * \ self.sigmoid(self.z2) * (1 - self.sigmoid(self.z2)) * \ self.output2[i]
for i in range(self.w1.shape[0]):
            for j in range(self.w1.shape[1]):
                self.w1[i, j] += -self.learn * cost.sum() * \ self.sigmoid(self.z2) * (1 - self.sigmoid(self.z2)) * self.w2[i] * \
self.sigmoid(self.z1[i]) * (1 - self.sigmoid(self.z1[i])) * \ self.output1[j]
for i in range(self.w0.shape[0]):
            for j in range(self.w0.shape[1]):
                self.w0[i, j] += -self.learn * cost.sum() * \ self.sigmoid(self.z2) * (1 - self.sigmoid(self.z2)) * self.w2[i] * \
self.sigmoid(self.z1[i]) * (1 - self.sigmoid(self.z1[i])) * \ self.w1[i, j] * self.sigmoid(self.z0[i]) * (1 - \ self.sigmoid(self.z0[i])) * xi[j].

نظرات خود را در ارتباط با مقاله‌ی آموزشی “الگوریتم mlp” بنویسید.

در ارتباط با شاخه‌های مختلف هوش مصنوعی در این لینک بیش‌تر بخوانید.

برای امتیاز به این نوشته کلیک کنید!

[کل: 1 میانگین: 5]

احمدی گفت:

در

آیا MLP بدون normalization ورودی‌ها می‌تونه خوب آموزش ببینه؟

پاسخ
- مدیر سایت گفت:
  
  در
  
  در بیشتر موارد نه، چون مقیاس‌های متفاوت ویژگی‌ها باعث میشه گرادیان‌ها نامتوازن بشن و یادگیری سخت‌تر پیش بره. Normalization معمولاً باعث همگرایی سریع‌تر و پایدارتر میشه.
  
  پاسخ
اکبری گفت:

در

تغییر اندازه batch چه تأثیری روی همگرایی مدل داره؟

پاسخ
- مدیر سایت گفت:
  
  در
  
  Batch کوچک‌تر به بهبود تعمیم کمک می‌کنه ولی نویز بیشتری داره، Batch بزرگ‌تر همگرایی پایدارتر ولی گاهی گیر افتادن در مینیمم‌های محلی رو بیشتر می‌کنه.
  
  پاسخ
سهیل گفت:

در

نرخ یادگیری رو بهتره ثابت بذاریم یا به مرور کاهش بدیم؟

پاسخ
- مدیر سایت گفت:
  
  در
  
  اغلب کاهش تدریجی (Learning Rate Decay) بهتره، چون ابتدا یادگیری سریع و در مراحل بعدی دقیق‌تر انجام میشه.
  
  پاسخ
کشاورز گفت:

در

انتخاب تعداد لایه‌های نهان چه تأثیری روی دقت و زمان آموزش داره؟

پاسخ
- مدیر سایت گفت:
  
  در
  
  لایه‌های بیشتر ظرفیت مدل رو زیاد می‌کنه ولی زمان آموزش و خطر overfitting رو هم بالا می‌بره. باید با آزمون و اعتبارسنجی انتخاب بشه.
  
  پاسخ
جاوید گفت:

در

چرا MLP نسبت به شبکه‌های عمیق‌تر برای بعضی مسائل هنوز بهتر جواب میده؟

پاسخ
- مدیر سایت گفت:
  
  در
  
  چون برای مسائل کوچک یا داده‌های کم، مدل ساده‌تر کمتر overfit میشه و آموزش سریع‌تر و پایدارتره.
  
  پاسخ

الگوریتم mlp

الگوریتم mlp

الگوریتم پیشخور چیست؟

الگوریتم mlp پس انتشار خطا

پاسخ سوال درِ آزمایشگاه کوئرا

نگهداری لپ تاپ از ویروس کرونا

کاربردهای حوزه الگوریتم ژنتیک

سورپرایز جیمیل با ظاهر جدید

رنگ سال ۲۰۲۵ چه رنگی است؟

کتاب Code Complete

مفهوم localhost

حل تمرین شماره رند کوئرا با پایتون