جستجو برای:
  • صفحه نخست
    • صفحه اصلی اول
    • صفحه اصلی دوم
    • صفحه اصلی سوم
    • صفحه اصلی چهارم
  • دوره ها
    • حساب کاربری من
    • سبد خرید
    • پرداخت
  • مطالب آموزشی
    • یادگیری ماشین
      • کلاس بندی
      • خوشه بندی
      • رگرسیون
      • یادگیری تقویتی
    • دانشجویان کارشناسی
      • مفاهیم اولیه
      • الگوریتم های تکاملی
      • الگوریتم های جستجو
      • عامل های منطقی
    • سایر مباحث
      • داده کاوی
      • کلان داده
      • یادگیری عمیق
      • پردازش تصویر
    • ابزارها
      • پایتون
      • R
      • وکا
      • کلمنتاین
  • بلاگ
 
  • 09127449140
  • viraai.ackademy@gmail.com
  • بلاگ
  • تماس با ما
  • درباره ما
آکادمی هوش مصنوعی ویرا
  • صفحه نخست
    • صفحه اصلی اول
    • صفحه اصلی دوم
    • صفحه اصلی سوم
    • صفحه اصلی چهارم
  • دوره ها
    • حساب کاربری من
    • سبد خرید
    • پرداخت
  • مطالب آموزشی
    • یادگیری ماشین
      • کلاس بندی
      • خوشه بندی
      • رگرسیون
      • یادگیری تقویتی
    • دانشجویان کارشناسی
      • مفاهیم اولیه
      • الگوریتم های تکاملی
      • الگوریتم های جستجو
      • عامل های منطقی
    • سایر مباحث
      • داده کاوی
      • کلان داده
      • یادگیری عمیق
      • پردازش تصویر
    • ابزارها
      • پایتون
      • R
      • وکا
      • کلمنتاین
  • بلاگ
0

ورود و ثبت نام

وبلاگ

آکادمی هوش مصنوعی ویرابلاگابزارهاپایتونالگوریتم AlphaZero

الگوریتم AlphaZero

29 آبان 1400
ارسال شده توسط Zeinab.Ghasemi
الگوریتم های جستجو ، پایتون ، یادگیری تقویتی
1.39k بازدید

الگوریتم AlphaGo
اگر دنیای هوش مصنوعی را دنبال می کنید، احتمالا در مورد AlphaGo شنیده اید.
بازی باستانی چینی Go، زمانی تصور می‌شد که برای ماشین‌ها غیرممکن است. موقعیت های تخته آن (17010170^10) بیشتر از اتم های موجود در جهان است. استادان بزرگ مرتباً بهترین برنامه‌های کامپیوتری Go را با نقص‌های پوچ (10 یا 15 سنگ!) زیر پا می‌گذاشتند. و تصمیمات خود را بر اساس مفاهیم استراتژیک انتزاعی – جوزکی، فوسکی، سنته، تنوکی، تعادل – توجیه می‌کردند. که معتقد بودند رایانه‌ها هرگز قادر به انجام آن‌ها نیستند.

مسابقه AlphaGo و استاد لی سدول
دمیس حسابیس و تیمش در DeepMind اعتقاد دیگری داشتند. و آنها سه سال زحمت کشیدند تا این عقیده را ثابت کنند. جمع‌آوری داده‌های Go از پایگاه‌های اطلاعاتی خبره، تنظیم معماری شبکه‌های عصبی عمیق، و توسعه استراتژی‌های ترکیبی که علیه مردم و همچنین ماشین‌ها طراحی شده است. در نهایت، تلاش‌های آن‌ها به برنامه‌ای پیچیده و استراتژیک به اوج رسید که آن‌ها AlphaGo نامیدند. و با استفاده از میلیون‌ها ساعت زمان CPU و TPU آموزش دیدند. و قادر به رقابت با بهترین بازیکنان Go بودند. آنها مسابقه ای بین AlphaGo و استاد بزرگ لی سدول راه اندازی کردند.

الگوریتم AlphaZero
اما من اینجا نیستم که در مورد AlphaGo صحبت کنم. من اینجا هستم تا درباره AlphaZero، الگوریتمی که برخی از محققان DeepMind یک سال بعد منتشر کردند، صحبت کنم. الگوریتمی که از هیچ اطلاعات قبلی یا بازی‌های انجام‌شده توسط انسان استفاده نمی‌کند. و با چیزی جز قوانین بازی شروع نمی‌شود. الگوریتمی که توانست نسخه اصلی AlphaGo را تنها در چهار ساعت زمان آموزشی به راحتی شکست دهد. الگوریتمی که می تواند بدون تغییر در شطرنج، شوگی و تقریباً هر بازی کلاسیک دیگری با اطلاعات کامل و بدون عناصر تصادفی اعمال شود.
اگر برنامه‌های رایانه‌ای می‌توانستند احساس تحقیر کنند. AlphaZero هر برنامه تجاری شطرنج هوش مصنوعی یا Go را مملو از شرم می‌کرد. هر یک از آن‌ها (از جمله AlphaGo اصلی) از پایگاه‌های جدولی از پیش محاسبه‌شده خیلی بزرگ از حرکات. مجموعه داده‌های حرفه‌ای «بازی‌های خوب» و توابع اکتشافی به‌دقت ساخته‌شده استفاده می‌کنند.

جستجوی درخت مونت کارلو
بنابراین آیا این بدان معناست که ما همه بازی های کلاسیک دو نفره را حل کرده ایم؟ نه کاملا. اما باید تمام حالت های بازی ممکن را که از یک موقعیت معین قابل دسترسی هستند. بررسی کند تا مقدار یک حالت را محاسبه کند. بنابراین، اگرچه استراتژی‌های بهینه برای بازی‌های پیچیده مانند شطرنج و Go وجود دارد، درخت‌های بازی آن‌ها آنقدر بزرگ هستند که یافتن آنها غیرممکن است.

دلیل پیشرفت آهسته DFS
دلیل پیشرفت آهسته DFS این است که هنگام تخمین مقدار یک حالت معین در جستجو، هر دو بازیکن باید به طور بهینه بازی کنند. و حرکتی را انتخاب کنند که بهترین ارزش را به آنها می دهد و نیاز به بازگشت پیچیده دارد. شاید، به جای انتخاب حرکات بهینه (که از نظر محاسباتی بسیار گران است)، بتوانیم با وادار کردن بازیکنان به انتخاب حرکات تصادفی از آنجا به بعد، ارزش یک حالت را محاسبه کنیم. و ببینیم چه کسی برنده می شود. یا شاید حتی می‌توانیم از روش‌های اکتشافی محاسباتی ارزان استفاده کنیم تا بازیکنان احتمال بیشتری برای انتخاب حرکات خوب داشته باشند.

ایده درخت مونت کارلو
این ایده اصلی بین جستجوی درخت مونت کارلو است – از اکتشاف تصادفی برای تخمین ارزش یک حالت استفاده کنید. ما یک بازی تصادفی را “بازی” می نامیم. اگر 1000 بازی را از یک موقعیت مشخص X انجام دهید. و بازیکن 1 در 60 درصد مواقع برنده شود.به احتمال زیاد آن موقعیت X برای بازیکن 1 بهتر از بازیکن 2 است. بنابراین، ما می توانیم یک تابع monte_carlo_value() ایجاد کنیم که مقدار حالتی با استفاده از تعداد معینی از بازی های تصادفی است. تنها تفاوت این است که به جای تکرار در میان همه احتمالات حرکت و انتخاب “بهترین”، به طور تصادفی حرکات را انتخاب می کنیم.

اشتراک گذاری:
برچسب ها: الگوریتم AlphaZeroجستجوی درخت مونت کارلو
در تلگرام
کانال ما را دنبال کنید!
در اینستاگرام
ما را دنبال کنید!

مطالب زیر را حتما مطالعه کنید

تشخیص جنسیت و سن افراد با کتابخانه OpenCV

در این مطلب با کمک پایتون و کتابخانه  OpenCV به دنبال ارائه روشی برای تشخیص...

ذخیره و بارگذاری مدل در پایتون

ذخیره و بارگذاری مدل‌ها در یادگیری عمیق یک اصل مهم است با توجه به این...
شبکه های عصبی

محل بررسی مدل های شبکه عصبی

مدل های شبکه عصبی مدل های یادگیری عمیق می توانند ساعت ها، روزها یا حتی...
شبکه های عصبی

شبکه خودرمزنگار متغیر (variational autoencoder) چیست؟

درک خودرمزنگارهای متغیر (VAEs) از دو منظر: یادگیری عمیق و مدل‌های گرافیکی. چرا محققان یادگیری...

تجزیه و تحلیل داده با پایتون

در این مطلب به بیان 10 نوع عملیات برای تجزیه و تحلیل داده با پایتون...
آموزش pytorch

آموزش Pytorch (قسمت سوم)

کتابخانه Pytorch به قسمت سوم از مجموعه PyTorch خوش آمدين. در قسمت قبلی درباره PyTorch...

1 دیدگاه

به گفتگوی ما بپیوندید و دیدگاه خود را با ما در میان بگذارید.

  • محمد شجاعی گفت:
    17 آذر 1401 در 8:10 ب.ظ

    از اینکه درباره این موضوع مطلب گذاشتید مچکرم ، اما کاش کاملتر میبود
    پیشنهاد من برای کسایی ک دنبال مطلب کاملتری هستن:
    مقاله “جست جوی درخت مونته کارلو برای یادگیری تقویتی بیزی”

    پاسخ

دیدگاهتان را بنویسید لغو پاسخ

جستجو برای:
دسته‌ها
  • ابزارها
  • الگوریتم های تکاملی
  • الگوریتم های جستجو
  • پایتون
  • پردازش تصویر
  • پردازش صوت
  • خوشه بندی
  • داده کاوی
  • دانشجویان کارشناسی
  • دسته‌بندی نشده
  • رگرسیون
  • سایر مباحث
  • سیستم های خبره
  • عامل های منطقی
  • علم داده
  • کلاس بندی
  • کلان داده
  • مطالب آموزشی
  • مفاهیم اولیه
  • مقالات
  • منطق فازی
  • ویدئو
  • یادگیری تقویتی
  • یادگیری عمیق
  • یادگیری ماشین
نوشته‌های تازه
  • منحنی AUC-ROC در یادگیری ماشین
  • درک منحنی AUC – ROC
  • چرحه حیات یادگیری ماشین
  • تشخیص جنسیت و سن افراد با کتابخانه OpenCV
  • تاثیر هایپرپارامترها در مدل یادگیری عمیق
درباره آکادمی ویرا

ما یک گروه علاقمند در زمینه های مختلف هوش مصنوعی هستیم که دغدغه اصلی ما آموزش زمینه های مختلف هوش به روش ساده و مفهومی است.

  • تهران، یوسف آباد، خ چهلم ، پلاک 17
  • 09127449140
  • viraai.ackademy@gmail.com
فهرست سفارشی
  • صفحه اصلی اول
  • بلاگ
  • تماس با ما
  • حساب کاربری من
  • درباره ما
  • سبد خرید
  • فروشگاه

تمامی حقوق برای سایت آکادمی ویرا محفوظ می باشد.

ورود

رمز عبور را فراموش کرده اید؟

هنوز عضو نشده اید؟ عضویت در سایت