एक एआई ने लुका-छिपी खेलना सीखा। इसने अपने दम पर जो रणनीति बनाई वह आश्चर्यजनक थी।

GbalịA Ngwa Ngwa Maka Iwepụ Nsogbu

OpenAI की एक नई रिलीज़ से पता चलता है कि जटिल व्यवहार कैसे सामने आता है।

कार्टून जैसी आकृतियाँ एक कोने में एक दूसरे के चारों ओर झांकती हैं।

यह कहानी कहानियों के एक समूह का हिस्सा है जिसे कहा जाता है संभाव्य भविष्य काल

अच्छा करने के सर्वोत्तम तरीके खोजना।

इस हफ्ते, अग्रणी एआई लैब ओपनएआई ने अपना जारी किया नवीनतम परियोजना : एक एआई जो लुका-छिपी खेल सकता है। यह नवीनतम उदाहरण है कि कैसे, वर्तमान मशीन लर्निंग तकनीकों के साथ, एक बहुत ही सरल सेटअप चौंकाने वाले परिष्कृत परिणाम उत्पन्न कर सकता है।

एआई एजेंट खेल का एक बहुत ही सरल संस्करण खेलते हैं, जहां साधक जब भी अपने देखने के क्षेत्र में होते हैं तो अंक प्राप्त करते हैं . छिपने वालों को छिपने की जगह स्थापित करने के लिए शुरुआत में थोड़ा समय मिलता है और जब वे सफलतापूर्वक खुद को छुपा लेते हैं तो अंक प्राप्त करते हैं; दोनों पक्ष एक लाभ के लिए खेल के मैदान (जैसे ब्लॉक, दीवार और रैंप) के चारों ओर वस्तुओं को स्थानांतरित कर सकते हैं।

इस सरल सेटअप के परिणाम थे काफी प्रभावी। लुका-छिपी के 481 मिलियन खेलों के दौरान, एआई विकसित होता दिख रहा था रणनीतियों और प्रति-रणनीतियों, और एआई एजेंट जटिल रणनीतियों को काम करने के लिए अपने सहयोगियों के साथ समन्वय करने के लिए यादृच्छिक रूप से इधर-उधर भागने से चले गए। (रास्ते में, उन्होंने खेल भौतिकी को अप्रत्याशित तरीकों से तोड़ने की अपनी क्षमता को भी दिखाया; उस पर और नीचे।)

यह रीइन्फोर्समेंट लर्निंग नामक एक साधारण एआई तकनीक के साथ कितना कुछ किया जा सकता है, इसका नवीनतम उदाहरण है, जहां एआई सिस्टम को वांछित व्यवहार के लिए पुरस्कार मिलते हैं और सीखने के लिए ढीले होते हैं, लाखों से अधिक गेम, अपने पुरस्कारों को अधिकतम करने का सबसे अच्छा तरीका है।

सुदृढीकरण सीखना अविश्वसनीय रूप से सरल है, लेकिन यह जो रणनीतिक व्यवहार पैदा करता है वह बिल्कुल भी सरल नहीं है। शोधकर्ताओं ने अतीत में एआई सिस्टम बनाने के लिए अन्य तकनीकों के बीच सुदृढीकरण सीखने का लाभ उठाया है जो खेल सकते हैं जटिल युद्धकालीन रणनीति खेल , और कुछ शोधकर्ता सोचते हैं कि अत्यधिक परिष्कृत सिस्टम को केवल सुदृढीकरण सीखने के साथ बनाया जा सकता है। लुका-छिपी का यह सरल खेल इस बात का एक बड़ा उदाहरण है कि कैसे सुदृढीकरण सीखना कार्रवाई में काम करता है और कैसे सरल निर्देश चौंकाने वाले बुद्धिमान व्यवहार का उत्पादन करते हैं। बेहतर या बदतर के लिए एआई क्षमताओं को आगे बढ़ाना जारी है।

आप देख सकते हैं पूरा वीडियो यहाँ , या इन हाइलाइट्स को देखें।

पहला पाठ: कैसे पीछा करना और छिपाना है

इसमें लुका-छिपी के कुछ मिलियन खेल हो सकते हैं, लेकिन अंततः AI एजेंटों ने खेल की मूल बातें समझ लीं: नक्शे के चारों ओर एक दूसरे का पीछा करना।

YouTube के माध्यम से ओपनएआई

दूसरा पाठ: रक्षात्मक आश्रय कैसे बनाया जाए

एआई एजेंटों में जगह-जगह ब्लॉकों को लॉक करने की क्षमता होती है। ब्लॉक को लॉक करने वाली टीम ही उसे अनलॉक कर सकती है। अभ्यास के लाखों खेलों के बाद, एआई एजेंटों ने उपलब्ध ब्लॉकों में से एक आश्रय का निर्माण करना सीखा; आप उन्हें यहां ऐसा करते हुए देख सकते हैं। आश्रय में, साधक एजेंट उन्हें नहीं ढूंढ सकते हैं, इसलिए यह छिपने वालों के लिए एक जीत है - कम से कम जब तक कोई नया विचार लेकर नहीं आता।

ओपनएआई, यूट्यूब के माध्यम से

एक आश्रय को भंग करने के लिए रैंप का उपयोग करना

लाखों पीढ़ियों के बाद, साधकों ने यह पता लगा लिया है कि छिपकलियों द्वारा इस व्यवहार को कैसे संभालना है: वे एक रैंप को ऊपर खींच सकते हैं, रैंप पर चढ़ सकते हैं, और छिपने वालों को ढूंढ सकते हैं।

YouTube के माध्यम से ओपनएआई

थोड़ी देर के बाद, छिपने वालों ने एक पलटवार सीखा: वे रैंप को जगह-जगह फ्रीज कर सकते थे ताकि साधक उन्हें हिला न सकें। OpenAI की टीम ने नोट किया कि उन्हें लगा कि यह खेल का अंत होगा, लेकिन वे गलत थे।

आश्रयों को भंग करने के लिए बॉक्स सर्फिंग

आखिरकार, साधकों ने एक बॉक्स को जमे हुए रैंप पर धकेलना, बॉक्स पर चढ़ना और उसे आश्रय में सर्फ करना सीख लिया, जहां वे एक बार फिर से छिपने वालों को ढूंढ सकते हैं।

YouTube के माध्यम से ओपनएआई

बॉक्स सर्फिंग के खिलाफ बचाव

यहां छिपने वालों के लिए एक स्पष्ट प्रतिवाद है: चारों ओर सब कुछ फ्रीज करना ताकि साधकों के पास काम करने के लिए कोई उपकरण न हो। दरअसल, वे यही सीखते हैं कि कैसे करना है।

YouTube के माध्यम से AI खोलें

इस तरह लाखों अनुभव वाले एआई एजेंटों के बीच लुका-छिपी का खेल चलता है। यहां दिलचस्प बात यह है कि प्रदर्शन पर किसी भी व्यवहार को सीधे तौर पर नहीं सिखाया गया था या सीधे पुरस्कृत भी नहीं किया गया था। एजेंटों को केवल तभी पुरस्कार मिलता है जब वे गेम जीतते हैं। लेकिन वह सरल प्रोत्साहन बहुत सारे रचनात्मक इन-गेम व्यवहार को प्रोत्साहित करने के लिए पर्याप्त था।

कई एआई शोधकर्ता सोचते हैं कि वास्तविक दुनिया के प्रभावों के साथ जटिल कार्यों को हल करने के लिए भी सुदृढीकरण सीखने का उपयोग किया जा सकता है। सरल निर्देशों से शक्तिशाली रणनीतिक निर्णय लेने का तरीका आशाजनक है - लेकिन यह चिंताजनक भी है। सुदृढीकरण सीखने के साथ समस्याओं को हल करना, जैसा कि हमने देखा है, बहुत सारे अप्रत्याशित व्यवहार की ओर जाता है - लुका-छिपी के खेल में आकर्षक, लेकिन संभावित रूप से कैंसर का इलाज करने वाली दवा में खतरनाक (यदि अनपेक्षित व्यवहार जीवन के लिए खतरा पैदा करता है) या बिजली संयंत्र के उत्पादन में सुधार करने के लिए एक एल्गोरिथ्म (यदि एआई केवल सुसंगत शक्ति प्रदान करने के बजाय अपने लक्ष्यों में कुछ अस्पष्ट स्थिति का फायदा उठाने की व्यवस्था करता है)।

सुदृढीकरण सीखने जैसी तकनीकों का यह खतरनाक दूसरा पहलू है। एक ओर, वे शक्तिशाली तकनीकें हैं जो एक साधारण प्रारंभिक बिंदु से उन्नत व्यवहार उत्पन्न कर सकती हैं। दूसरी ओर, वे शक्तिशाली तकनीकें हैं जो एक साधारण प्रारंभिक बिंदु से अप्रत्याशित - और कभी-कभी अवांछित - उन्नत व्यवहार उत्पन्न कर सकती हैं।

जैसे-जैसे एआई सिस्टम अधिक शक्तिशाली होते जाते हैं, हमें इस बात पर सावधानीपूर्वक विचार करने की आवश्यकता है कि वे कैसे सुनिश्चित करें कि वे वही करते हैं जो हम चाहते हैं।

फ्यूचर परफेक्ट न्यूजलेटर के लिए साइन अप करें। सप्ताह में दो बार, आपको हमारी सबसे बड़ी चुनौतियों से निपटने के लिए विचारों और समाधानों का एक राउंडअप मिलेगा: सार्वजनिक स्वास्थ्य में सुधार, मानव और पशु पीड़ा को कम करना, भयावह जोखिमों को कम करना, और - सीधे शब्दों में कहें तो - अच्छा करने में बेहतर होना।