Искусственный интеллект самостоятельно выучил приемы борьбы Сумо

Не так давно світом ширилась новина про те, як два боти під час тестування в офісі Facebook винайшли самостійну мову та почали спілкуватись нею поза волею розробників. Але це – лише початок досягнень у сфері штучного інтелекту. Нещодавні дослідження від OpenAI та його результати здивували ще більше. Штучний інтелект самостійно вивчив прийоми Сумо та зможе відтворити їх в реальних умовах без попереднього тренування.

OpenAI – це відомий у всьому світі дослідницький інститут, який знаходиться у Сан-Франциско та спеціалізується на вивченні штучного інтелекту та машинного навчання. Засновником компанії став відомий інвестор у технічні інновації Ілон Маск. За допомогою технологій мета-навчання боти можуть самостійно сприймати інформацію з оточуючого світу та шляхом поступового аналізу перетворять її на базові дії, які стануть реакцією на відповідні зовнішні подразники, так звані тригери.

Розробники з OpenAI в рамках останнього експерименту створили штучне середовище для вивчення алгоритмом прийомів із давньої боротьби Сумо. Вчені створили два майже однакових алгоритми, які мали б боротись одне з одним за рахунок використання метанавчання.

До речі, дослідження OpenAI – відносно відкрите для вивчення усіма охочими. Дослідники планують відкрити окрему платформу RoboSumo, створену на базі OpenAI Gym. Остання система призначена для тренування штучного інтелекту та засвоєння ним нових прийомів боротьби. Усі останні розробки алгоритмів будуть доступні на окремій сторінці платформи. Також препринти будуть публікуватись на відомому ресурсі arXiv.org.

Останніми роками жорсткі алгоритми, написані людиною, використовуються все менше. Тепер машинне навчання займає лідерські позиції. Воно передбачає, що алгоритм задається лише базовий. Саме він пишеться людиною. Це свого роду фреймворк, у межах якого може діяти штучний інтелект. Наприклад, для роботів перед початком метанавчання можна було б задати лише базові правила боротьби Сумо. Під час взаємодії один з одним алгоритми мали б навчитись прийомам, маючи необхідну теоретичну базу для подальшого розвитку майстерності.

Метанавчання використовується для вирішення складних задач. Жорсткі алгоритми, написані людиною, не можуть бути гнучкими. Вони призначені лише для вирішення однієї лінійної проблеми із необхідним набором змінних та вихідних даних. Саме через це машинне навчання виглядає більш привабливим для подальших розробок – створення лише одного алгоритму з базовим фреймворком дозволить використовувати його у великій кількості різноманітних ситуацій.

Дослідники із центру OpenAI використали підхід метанавчання для алгоритмів, які повинні ефективно боротись у стилі східної боротьби Сумо. Віртуальна середа RoboSumo підтримує метанавчання одразу декількох агентів. Для тестування оточення та фреймворку були створенні умовні «істоти» із чотирма, шістьма або вісьмома ногами. В рамках машинного навчання дослідники вивели більше тисячі агентів, які відрізнялись між собою методами навчання та побудовою віртуального тіла. Для початку кожен агент мав навчитись ходити, а лише після цього «істота» переходила до вивчення базових та більш складних прийомів сумо.

Після того, як кожен агент самостійно вивчив деякі прийоми та тактики, дослідники ставили суперників між собою на спаринг. Як у справжній боротьбі, агенти мали виштовхнути одне одного із площі або перевернути на спину. Ті агенти, які програли, просто зникали із використовуваної платформи. Ті, що виграли, дублювали себе самостійно. Через це популяція поступово змінювалась, постійно покращуючи свою якість з точки зору майстерності Сумо. Наприкінці тесту агенти із шістьма кінцівками стали найбільш успішними у боротьбі та стали домінувати у тисячній популяції агентів.

Після першого етапу успішного тестування, команда дослідників почала моделювати агентів з більш складною анатомією. Їм демонструвались різноманітні тактики та прийоми. Алгоритм розвитку популяції лишився таким самим. У найближчих планах дослідників із центру OpenAI – випустити платформу RoboSumo для оточення OpenAI Gym. Це стане одним із найбільш масштабних у світі ресурсів для метанавчання віртуальних агентів в умовно реальному середовищі.

Команда OpenAI використовує штучний інтелект у комп’ютерних іграх, а саме у Dota 2. Влітку 2017-го року на головному кіберспортивному чемпіонаті світу з Dota 2 навченим агентам вдалося виграти один на один найкращих професійних гравців. На початку цього року штучний інтелект, що був розробкою дослідників із Університету «Карнегі Мелон», зміг перемогти найбільш успішних гравців у покер на довгій дистанції. Цікаво, що боту вдалося самостійно створити власну тактику гри, елементи котрої були зовсім нетиповими для найбільш розповсюджених ігрових стратегій. Такі перемоги важливі для спеціалістів, які працюють зі штучним інтелектом. Адже саме вони допомагають тестувати спроможність алгоритмів приймати рішення в умовах непередбачуваності.

Наступним кроком вперед стане самовдосконалення штучного інтелекту шляхом створення собі подібних алгоритмів, але з вже покращеними методиками роботи. Так, нещодавно у Microsoft вдалося створити алгоритм, який розроблює інші програми, просто позичаючи код у вже готових продуктах. Цього року в Google штучний інтелект після машинного навчання зміг створити алгоритм набагато кращий від того, який від початку був створений розробниками-людьми.

Але поки що подібні приклади знаходяться лише на початкових етапах. Але використання машинного навчання на доповненої реальності практикується вже не вперше. Так, у згадуваному вище дослідницьому центрі OpenAI змогли створити штучний інтелект, який навчався в умовах віртуальної реальності. За умови розміщення створеного коду-алгоритму до механічного робота, той зможе в умовах реального середовища відтворити ті прийоми, яких навчився у віртуальній реальності.

Дивитись повну версію