Ознакомьтесь с этой новой системой искусственного интеллекта, называемой Студент игр (SoG), которая способна побеждать людей во множестве игр и обучаться новым.

Познакомьтесь с новейшей системой искусственного интеллекта - Студент Игр, способной побеждать во множестве игр и обучаться новым умениям

Существует долгая традиция использования игр в качестве индикаторов производительности искусственного интеллекта. Поиск и основанные на обучении подходы хорошо себя показывают в различных играх с полной информацией, тогда как методы на основе теории игр хорошо себя показывают в нескольких вариантах покера с неполной информацией. Совместными усилиями исследователей искусственного интеллекта из компаний EquiLibre Technologies, Sony AI, Amii и Midjourney, работающих над проектом DeepMind от Google, был предложен общегеймовый алгоритм Student of Games, который объединяет предыдущие усилия. Благодаря своей высокой эмпирической производительности в играх с полной и неполной информацией, Student of Games является значительным шагом в разработке универсальных алгоритмов, применимых в любой среде. С увеличением вычислительной мощности и приближения они показывают, что Student of Games является надежным и в конечном итоге достигает безупречной игры. Student of Games проявляет себя сильно в шахматах и Го, побеждает самого сильного доступного агента в покере без ограничений Texas hold ’em и побеждает ведущего агента в игре Scotland Yard. Это игра с неполной информацией демонстрирует ценность направленного поиска, обучения и игровой теории.

Для демонстрации достижений искусственного интеллекта компьютеру было обучено играть в настольную игру, а затем улучшено до такой степени, что он мог победить людей в этой игре. С помощью этого последнего исследования команда сделала значительный прогресс в создании искусственного общего интеллекта, где компьютер может выполнять задачи, ранее считавшиеся невозможными для машины.

Большинство компьютеров, способных играть в настольные игры, разработаны для игры только в одну игру, например, шахматы. Создав такие системы, ученые создали форму ограниченного искусственного интеллекта. Исследователи этого нового проекта разработали интеллектуальную систему, которая может соревноваться в играх, требующих широкого спектра способностей.

Что такое SoG – “Student Of Games”?

Сочетая поиск, обучение и анализ игровой теории в одном алгоритме, SoG имеет множество практических применений. SoG включает в себя технику GT-CFR для обучения CVPN и звуковое самоигранье. В частности, SoG является надежным алгоритмом для игр с оптимальной и субоптимальной информацией: SoG гарантированно генерирует лучшее приближение минимакс-оптимальных техник при улучшении вычислительных ресурсов компьютера. Это открытие также доказано эмпирически в покере Leduc, где дополнительный поиск приводит к уточнению приближения времени тестирования, в отличие от чистых систем RL, не использующих поиск.

Почему SoG так эффективен?

SoG использует технику, называемую растущим деревом минимизации контрфактуального сожаления (GT-CFR), которая представляет собой форму локального поиска, выполняемого в любое время и включает неравномерное построение подигр для увеличения веса подигр, связанных с наиболее важными будущими состояниями. Кроме того, SoG использует технику обучения, называемую звуковым самоиграньем, которая обучает сети значений и политики на основе результатов игры и рекурсивных подпоисков, применяемых к сценариям, обнаруженным при прежних поисках. Являясь значительным шагом в направлении универсальных алгоритмов, которые могут быть изучены в любой ситуации, SoG показывает хорошую производительность в нескольких предметных областях с полной и неполной информацией. В играх с неполной информацией стандартные приложения поиска сталкиваются с хорошо известными проблемами.

Сводка алгоритмов

Метод SoG использует звуковое самоигранье для обучения агента: при принятии решения каждый игрок использует хорошо настроенный поиск GT-CFR вместе с CVPN для создания политики для текущего состояния, которая затем используется для случайной выборки действия. GT-CFR – это двухэтапный процесс, который начинается с текущего публичного состояния и заканчивается завершенным деревом. Во время этапа обновления сожалений обновляется CFR текущего публичного дерева. Во время этапа расширения к дереву добавляются новые общие формы с использованием траекторий расширения на основе симуляции. Итерации GT-CFR включают запуск этапа обновления сожалений и запуск этапа расширения.

Обучающие данные для сетей значений и политик генерируются во время процесса самоигры: запросы поиска (публичные состояния уверенности, запрошенные CVPN во время этапа обновления сожалений GT-CFR) и полные игровые траектории. Запросы поиска должны быть разрешены для обновления сети значений на основе контрфактуальных целевых значений. Сеть политики может быть настроена на цели, производные из полных игровых траекторий. Актеры создают данные самоигры (и отвечают на запросы), в то время как тренеры открывают и реализуют новые сети и иногда обновляют актеров.

Некоторые ограничения

  • Использование абстракций ставок в покере может быть затруднено в пользу общей политики сокращения действий для обширных пространств действий.
  • Генеративная модель, которая выбирает образцы состояний мира и работает со случайным подмножеством, может приблизить SoG, который в настоящее время требует перечисления информации каждого публичного состояния, что может быть чрезмерно дорогостоящим в некоторых играх.
  • Сильная производительность в вызывающих сложности предметных областях часто требует большого количества вычислительных ресурсов; интересный вопрос состоит в том, можно ли достичь такого уровня производительности с меньшим количеством ресурсов.

Исследовательская команда считает, что она имеет потенциал для успешной игры в другие виды игр благодаря своему умению самообучаться и выигрывать у конкурирующих систем и людей в Go, шахматы, “Scotland Yard” и покер “Техасский Холдем”.