تکنولوژی

MuZero با توانایی یادگیری شطرنج و پک من

هوش مصنوعی برای نخستین بار تونست در بازی شطرنج بر انسان غلبه کرد. MuZero دارای بی‌شمار ترکیب احتمالی اما کاملا رام‌شدنی است؛ چرا که با مجموعه‌ای از قوانین محدود شده است. الگویتم شطرنج قادر است به دانش کاملی از وضعیت بازی برسد و تمام حرکت‌هایی که رقیب ممکن است انجام دهد، حدس بزند. همچنین می‌توان وضعیت بازی را با نگاه کردن به صفحه ارزیابی کرد.

اما بازی‌‌های دیگر به‌سادگی شطرنج نمی‌باشند. به عنوان مثال محاسبه‌ی حرکت ایده‌آل برای بازی مانند پک من با توجه به شکل هزارتو، موقعیت ارواح، موقعیت نواحی مورد نظر برای پاکسازی، دسترسی به جان‌ها و در نهایت دستیابی به بهترین نقشه در صورت اجرای حرکتی غیر منتظره، می‌تواند نتایج فاجعه‌باری در پی داشته باشد. تا به حال چندین هوش مصنوعی‌ برای اجرای این بازی طراحی شده است‌؛ اما روش آن‌ها با پیروزی در بازی شطرنج یا Go کاملا متفاوت است. هم اکنون بخش دیپ‌مایند گوگل به توصیف ساختار نوعی هوش مصنوعی‌ای می‌پردازد کهمی‌تواند هر دو بازی شطرنج و پک من را اجرا کرده و به نتایج خوبی برسد.

اعمال درخت‌ها

الگوریتم‌های شطرنج و Go از روش درختی تبعیت می‌کنند؛ الگوریتم در این روش به ارزیابی تمام شاخه‌های برآمده از عملیات مختلف می‌پردازد. این روش از نظر محاسباتی پرهزینه بوده و الگوریتم‌ باید قوانین بازی را بداند تا قادر باشد وضعیت‌های فعلی بازی را با وضعیت‌های آینده‌ی آن تطبیق دهد.

بخشی از سیستم جدید دیپ‌مایند گوگل به نام MuZero تا اندازه‌ای مشابه هوش مصنوعی آلفازیرو می‌باشد که خود را در بازی‌های قانون‌ محوری مانند شطرنج و Go آموزش داده است؛ با این تفاوت که موزیرو انعطاف پذیری بیشتری نسبت به آلفازیرو دارد و از قابلیت یادگیری تقویتی مبتنی بر مدل بهرهمند است.

در چنین سیستمی، نرم‌افزار از آنچه در بازی می‌بیند باید برای ساخت مدل داخلی وضعیت بازی بهره بگیرد. به این صورت هیچ درک پیش‌ساخته‌ای وجود مداشته بلکه هوش مصنوعی در کاربرد اطلاعات از انعطاف بالایی برخوردار است. در یادگیری تقویتی، هوش مصنوعی تشخیص می‌دهد چه زمانی از اطلاعات مدل برای تصمیم‌گیری استفاده کند.

پیش‌بینی‌ها

هدف مدل استفده شده در MuZero، پیش‌بینی حرکات، خصوصا بهترین حرکت ممکن بر اساس وضعیت موجود و وضعیت بازی در نتیجه‌ی حرکت می‌باشد. پیش‌بینی معمولا بر اساس مدل داخلی وضعیت‌های بازی صورت می‌گیرد نه بر اساس نمایش بصری واقعی از بازی مثل موقعیت مهره‌های شطرنج.

در آخر باید گفت این هوش مصنوعی در بازی به این صورت عمل می‌کند که ابتدا 3 ارزیابی را به‌صورت موازی اجرا می‌کند؛ یکی از آن‌ها حرکت بعدی را بر اساس مدل فعلی از وضعیت بازی انتخاب می‌کند؛ ارزیابی دوم به پیش‌بینی وضعیت فعلی نتایج و پاداش فوری حاصل از تفاوت آن‌ها می‌پردازد؛ سومین ارزیابی تجربه‌ی قبلی را برای تصمیم‌گیری در نظر می‌گیرد. هر کدام از این ارزیابی‌ها نتیجه‌ی آموزش است و بر حداقل‌سازی خطای پیش‌بینی‌ها و اتفاق‌های واقعی بازی تمرکز دارد.

نمایش بیشتر

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا