مارا دنبال کنید : 

الگوریتم (SARSA)-بخش اول
مقدمه

الگوریتم (State-Action-Reward-State-Action) SARSA در یادگیری تقویتی بر اساس سیاست، به عامل (Agent) کمک می‌کند تا بهینه عمل کند. این الگوریتم مقادیر ارزش (Q-Values) را برای هر ترکیب حالت-عمل به‌روزرسانی می‌کند. SARSA بر اساس حالت فعلی، عمل فعلی، پاداش دریافتی، حالت بعدی و عمل بعدی که از سیاست فعلی انتخاب شده، عمل می‌کند و با این روش، سیاست خود را به‌روزرسانی می‌کند.

یادگیری SARSA 

الگوریتم SARSA نوعی روش یادگیری تفاوت زمانی (TD) است که ایده‌های برنامه‌ریزی پویا و روش‌های مونت‌کارلو را با هم ترکیب می‌کند. ویژگی اصلی SARSA این است که مقادیر Q را بر اساس اقدامات موجود در سیاست فعلی یاد می‌گیرد، یعنی عامل (agent) در هر مرحله هم از سیاست فعلی پیروی می‌کند و هم مقادیر Q را براساس آن به‌روزرسانی می‌کند.

مفاهیم کلیدی در SARSA 

1.وضعیت (State) (s): وضعیتی است که عامل (Agent) در آن قرار دارد.

2.اقدام (Action) (a): عملی است که عامل (Agent) در حالت فعلی خود انجام می‌دهد

3.پاداش (Reward) (r): پاداشی است که عامل بعد از انجام یک عمل در یک حالت خاص دریافت می‌کند.

4.وضعیت بعدی (Next State) (s’): وضعیت جدیدی که عامل (Agent) پس از انجام یک عمل به آن منتقل می‌شود.

5.اقدام بعدی (Next Action) (a’): عملی که عامل (Agent) در حالت بعدی بر اساس سیاست (Policy) خود انجام می‌دهد.

6.تابع ارزش (Q-Value): نشان‌دهنده ارزش یک جفت حالت-عمل است و به عامل کمک می‌کند تصمیم بگیرد کدام عمل در هر حالت سودمندتر است.

نحوه کارکرد الگوریتم SARSA

SARSA به صورت گام‌به‌گام به این صورت عمل می‌کند:

1.انتخاب عمل (Action): عامل یک حالت اولیه (s) را انتخاب می‌کند و بر اساس یک سیاست (معمولاً

ϵ-greedy) عمل (a) انجام می‌دهد.

2.گرفتن پاداش و انتقال به حالت جدید: عامل با انجام این عمل، به حالت جدید (s′) می‌رود و پاداش (r) دریافت می‌کند.

3.انتخاب عمل بعدی: عامل در حالت جدید (s′) بر اساس همان سیاست یک عمل جدید (a′) را انتخاب می‌کند.

4.به‌روزرسانی Q-Value: سپس عامل از معادله زیر برای به‌روزرسانی Q-Value استفاده می‌کند:

Q-value update equation

که درآن:

s: وضعیت فعلی عامل (Agent) است.

a: عملکرد فعلی که بر اساس یک سیاست خاص انتخاب شده است.

s’: حالت بعدی که عامل (Agent) به آن منتقل می‌شود.

a’: بهترین اقدام بعدی که باید با استفاده از تخمین فعلی مقدار Q انتخاب شود، به این معنی که اقدام با حداکثر مقدار Q در حالت بعدی انتخاب شود.

r: پاداش فعلی که از محیط به عنوان پاسخ به عمل کنونی مشاهده می‌شود.

α: نرخ یادگیری (Learning Rate) که مشخص می‌کند عامل تا چه حد تغییرات را در Q-Value لحاظ کند. و مقدار آن بین 0 و 1 قرار دارد.

γ: ضریب تنزیل (Discount Factor) که نشان می‌دهد اهمیت پاداش‌های آینده به چه اندازه است که معمولا بین 0 و 1 است.

Q(s,a): مقدار Q فعلی برای حالت s و عمل a.

Q(s′,a′): مقدار Q برای حالت بعدی s′ و عمل بعدی a′ است که توسط سیاست فعلی انتخاب می‌شود.

این فرمول مقدار Q را براساس پاداش دریافت‌شده و مقدار Q آینده به‌روزرسانی می‌کند.

در واقع، در  SARSA، سیاست جاری تصمیم می‌گیرد که در حالت بعدی کدام عمل a′  انجام شود و سپس مقدار Q(s,a)  بر این اساس به‌روزرسانی می‌شود. این وابستگی به سیاست جاری همان چیزی است که SARSA را به یک الگوریتم یادگیری روی سیاست (on-policy) تبدیل می‌کند.

5.تکرار مراحل: این فرآیند تا زمانی که عامل به حالت پایانی برسد، تکرار می‌شود.

در SARSA، برخلاف برخی الگوریتم‌های دیگر مانند Q-Learning که بر اساس بهترین عمل ممکن عمل می‌کند، به خاطر استفاده از همان سیاست (ϵ-greedy) که عامل عمل‌ها را انتخاب می‌کند، الگوریتم ارزش حالت و عمل آینده‌ای که احتمالاً عامل برمی‌گزیند را لحاظ می‌کند.

 

در تصویر زیر، شخصیتی به نام “عامل” (Agent) در دنباله‌ای از حالات (S و S’) اقداماتی (A و A’) انجام می‌دهد و پاداش‌هایی (R) دریافت می‌کند. فلش‌ها انتقال بین حالت‌ها، اقدامات و پاداش‌ها را نشان می‌دهند و مفهوم به‌روزرسانی مقادیر Q (Q-values) در هر مرحله را به تصویر می‌کشند.

Performance of the SARSA algorithm
تصویر1-نحوه کارکردالگوریتم SARSA
مزایا SARSA

1.طبیعت الگوریتم‌های On-Policy:

SARSA یک الگوریتم on-policy است، به این معنی که بر اساس سیاستی که خود در حال دنبال کردن آن است، ارزیابی می‌کند. این ویژگی باعث می‌شود SARSA به سیاست فعلی حساس باشد و در محیط‌هایی که نیاز به کاهش ریسک دارند، عملکرد بهتری داشته باشد.

2.ایمنی بیشتر در محیط‌های تصادفی:

از آن‌جایی که SARSA به‌روزرسانی‌های خود را بر اساس اقداماتی که واقعاً انجام می‌دهد و جوایز واقعی که دریافت می‌کند، انجام می‌دهد، معمولاً در مقایسه با الگوریتم‌های off-policy مانند Q-learning محتاط‌تر عمل می‌کند. در محیط‌هایی که رفتارها تصادفی و غیرقابل پیش‌بینی هستند، این احتیاط باعث می‌شود که SARSA گزینه بهتری باشد.

3.فرآیند یادگیری ساده‌تر و روان‌تر:

از آن‌جایی که SARSA به‌طور میانگین بر اساس اقداماتی که طبق سیاست فعلی انجام می‌دهد به‌روزرسانی می‌کند، فرآیند یادگیری معمولاً روان‌تر پیش می‌رود. این ویژگی به‌ویژه در محیط‌هایی که جوایز نوسانات زیادی دارند، مفید است.

4.تعادل میان کاوش و بهره‌برداری:

چون SARSA از اقداماتی که واقعاً انجام می‌دهد (که ممکن است شامل اقدامات کاوشی نیز باشد) استفاده می‌کند، به‌طور ذاتی بین کاوش (exploration) و بهره‌برداری (exploitation) تعادل برقرار می‌سازد. این ویژگی باعث می‌شود که SARSA برای محیط‌هایی که نیاز به آزمایش استراتژی‌های مختلف دارند، بسیار مناسب باشد.

معایب SARSA

1.همگرایی کندتر در محیط‌های قطعی:

از آن‌جایی که SARSA به‌روزرسانی‌های خود را بر اساس سیاست فعلی (که ممکن است شامل اقدامات کاوشی باشد) انجام می‌دهد، معمولاً در محیط‌های قطعی که نیاز به همگرایی سریع به سیاست بهینه دارند، نسبت به الگوریتم‌های off-policy مانند Q-learning کندتر عمل می‌کند.

2.حساسیت به سیاست کاوش:

عملکرد SARSA به شدت به استراتژی کاوش (مانند ε-greedy) وابسته است. اگر نرخ کاوش به‌درستی انتخاب نشود، ممکن است سیاست بهینه پیدا نشود و برای رسیدن به عملکرد مطلوب نیاز به تنظیمات بیشتری باشد.

3.محدودیت‌ الگوریتم‌های On-Policy:

به‌عنوان یک الگوریتم on-policy، SARSA تنها از اقداماتی که واقعاً انجام می‌دهد یاد می‌گیرد. اگر سیاستی که دنبال می‌کند بهینه نباشد، یادگیری SARSA نیز بهینه نخواهد بود. این ویژگی اجازه نمی‌دهد که SARSA از استراتژی‌های off-policy بهره‌برداری کند، استراتژی‌هایی که می‌توانند بر اساس بهترین اقدام ممکن به‌روزرسانی شوند.

4.سیاست‌های محتاطانه‌تر:

روش محتاطانه SARSA در به‌روزرسانی سیاست‌ها (با استفاده از اقدامات واقعی به جای اقدامات بهینه) می‌تواند منجر به سیاست‌هایی شود که محتاطانه‌تر عمل می‌کنند و در بلندمدت نتایج بهینه‌ای به همراه نداشته باشند.

5.حساسیت بالا به تنظیمات در محیط‌های پیچیده:

اگرچه SARSA نسبتاً ساده است و نیاز به تنظیمات کمتری دارد، در محیط‌های پیچیده و پرچالش، تنظیمات پارامترهای یادگیری، نرخ تنزیل و پارامترهای کاوش نیاز به دقت بیشتری دارند تا از ناپایداری یا یادگیری کند جلوگیری شود.

کاربردهای SARSA

SARSA به‌ویژه در سناریوهایی که نیاز به اتخاذ تصمیمات محتاطانه و پرهیز از ریسک‌های زیاد وجود دارد، مفید است. برخی از کاربردهای رایج SARSA عبارتند از:

1.یافتن مسیر و ناوبری در محیط‌های پیچیده:

SARSA در وظایف ناوبری، مانند یافتن مسیر در یک محیط پیچیده یا متغیر، جایی که ممکن است موانع داینامیک وجود داشته باشد، کاربرد دارد. در این‌گونه محیط‌ها، روش محتاطانه SARSA کمک می‌کند تا تصمیمات امن‌تری اتخاذ شود و از اشتباهات پرهزینه جلوگیری گردد.

Robot control management in SARSA
تصویر1-مدیریت کنترل ربات‌ها

2.مدیریت کنترل ربات‌ها:

در کنترل ربات‌ها، به‌ویژه در محیط‌هایی که با خطرات واقعی مواجه هستند، روش محتاطانه SARSA بسیار ارزشمند است. ربات‌ها ممکن است در محیط‌های دنیای واقعی که ریسک بالاست، نیاز به استفاده از مسیرها و اقدامات امن‌تری داشته باشند.

 

 

 

finance in sarsa
تصویر2-کاربردهای مالی

3.کاربردهای مالی:

SARSA در زمینه‌های مالی، مانند معاملات، می‌تواند برای کاهش ریسک استفاده شود. در این محیط‌ها، هدف این است که در عین جستجوی سود، از ریسک‌های غیرضروری اجتناب گردد.

 

 

4.بازی‌های با المان‌های تصادفی و غیرقابل پیش‌بینی

SARSA معمولاً در بازی‌هایی که نتایج تصادفی دارند (مانند بازی‌هایی که در آن‌ها تاس انداخته می‌شود یا رویدادهای تصادفی در جریان هستند) استفاده می‌شود. در این‌گونه محیط‌ها، حساسیت SARSA به سیاست کاوش می‌تواند آن را نسبت به دیگر روش‌ها، مانند Q-learning، بهتر کند.

5.سیستم‌های مدیریت انرژی:

در سیستم‌های مدیریت انرژی، مانند شبکه‌های هوشمند یا سیستم‌های ذخیره‌سازی باتری، SARSA می‌تواند به مدیریت توزیع انرژی کمک کرده و از مصرف منابع اضافی یا ناکافی جلوگیری کند.

6.برنامه‌ریزی درمانی در حوزه مراقبت‌های بهداشتی:

در حوزه مراقبت‌های بهداشتی، به‌ویژه در برنامه‌ریزی درمانی که نیاز به تعادل بین اثربخشی و عوارض جانبی داروها دارد، SARSA می‌تواند به ایجاد استراتژی‌هایی کمک کند که از اقدامات افراطی جلوگیری نمایند.


ترتیبی که هوشینو برای خواندن مطالب یادگیری تقویتی به شما پیشنهاد می‌کند:

 

1.یادگیری تقویتی بخش اول

2.یادگیری تقویتی بخش دوم

3.یادگیری تقویتی بخش سوم

4.زنجیره مارکوف بخش اول

5.زنجیره مارکوف بخش دوم

6.زنجیره مارکوف بخش سوم

7.زنجیره مارکوف بخش چهارم

8.الگوریتم Q-Learning بخش اول

9.الگوریتم Q-Learning بخش دوم

10.الگوریتم Q-Learning بخش سوم

11.الگوریتم SARSA-بخش اول

12.الگوریتم SARSA-بخش دوم

13. تفاوت بین Q-Learning و SARSA