تعمل شركة DeepMind على تطوير ذكاء اصطناعى يتفوق على اللاعبين ويتقن الألعاب منذ سنوات، حتى وصلت في أحدث ذكاء اصطناعى لها، لميزة تمكنه من إتقان الألعاب دون إخباره بقواعدها، وبدأت الشركة هذه الإنجازات في عام 2016، إذ ابتكرتAlphaGo ، وهو ذكاء اصطناعي يتفوق باستمرار على أفضل لاعبي Go .
ووفقا لما ذكره موقع “the verge”، فإنه بعد عام واحد، واصلت الشركة تحسين عملها، وإنشاء AlphaGo Zero ، والذى تعلم سلفه لعب Go من خلال مراقبة مباريات الهواة والمحترفين، ولكن أتقن AlphaGo Zero اللعبة القديمة من خلال اللعب ببساطة ضد نفسه.
وانشأ DeepMind بعد ذلك AlphaZero ، والذي يمكنه لعب Go و Chess و shogi باستخدام خوارزمية واحدة، وما ربط كل هؤلاء معًا هو أنهم يعرفون قواعد الألعاب التي يجب عليهم إتقانها أثناء تدريبهم.
ولكن لم يكن هناك حاجة لإخبار MuZero ، أحدث تقنيات الذكاء الاصطناعي من DeepMind ، بقواعد go ، الشطرنج ، shogi ومجموعة من ألعاب Atari لإتقانها، بدلاً من ذلك ، تعلمهم جميعًا من تلقاء نفسه وهو أفضل فيها من أي خوارزميات سابقة لـ DeepMind.
وكان إنشاء خوارزمية يمكنها التكيف مع موقف لا تعرف فيه جميع القواعد التي تحكم المحاكاة، ولكن لا يزال بإمكانها إيجاد طريقة للتخطيط للنجاح، تحديًا حاول باحثو الذكاء الاصطناعي حله لفترة من الوقت.
وحاول DeepMind باستمرار معالجة المشكلة، ووصل لطريقة حيث تنظر الخوارزمية في الحالات المستقبلية للتخطيط لمسار العمل.
تكمن مشكلة هذا النهج في أن معظم مواقف العالم الحقيقي، وحتى بعض الألعاب، ليس لديها مجموعة بسيطة من القواعد التي تحكم كيفية عملها، لذلك حاول بعض الباحثين الالتفاف على المشكلة باستخدام نهج يحاول نمذجة كيفية تأثير لعبة أو بيئة سيناريو معينة على النتيجة ثم استخدام تلك المعرفة لوضع خطة.