Это исследование обучения с алгоритмами машинного обучения от DeepMind представляет модели векторного квантования (VQ) для продвинутого планирования в динамических средах

Исследование алгоритмов машинного обучения DeepMind модели векторного квантования (VQ) для продвинутого планирования в динамических средах

С постоянными достижениями в технологии искусственного интеллекта компьютеры успешно учатся мыслить и учиться так же, как люди, имитируя мощь человеческого мозга. Последние достижения в области искусственного интеллекта, машинного обучения и глубокого обучения помогли улучшить множество областей, включая здравоохранение, финансы, образование и многое другое. Большие языковые модели, которые в последнее время привлекли много внимания своим невероятным потенциалом, обладают отличными навыками имитации человека. От ответов на вопросы и резюмирования текста до генерации кода и завершения кода, эти модели отлично справляются со всеми задачами.

Языковые модели переоснащаются с помощью понятий парадигмы машинного обучения, известной как обучение с подкреплением. В обучении с подкреплением агент развивает навыки принятия решений через взаимодействие со своим окружением. Он стремится максимизировать накопленный кумулятивный сигнал вознаграждения за время, действуя в среде. Модельное обучение с подкреплением (RL) недавно претерпело существенное развитие и показало себя с хорошей стороны в различных условиях, особенно в ситуациях, требующих планирования. Однако эти успехи ограничивались полностью наблюдаемыми и детерминированными ситуациями.

В недавнем исследовании команда исследователей из DeepMind предложила новую стратегию планирования с использованием векторно-квантованных моделей. Этот подход предназначен для решения проблем в стохастических и частично наблюдаемых средах. В этом методе будущие наблюдения кодируются в дискретные латентные переменные с использованием состояния VQVAE (Vector Quantized Variational Autoencoders) и модели перехода. Это делает его актуальным для стохастических или частично наблюдаемых контекстов, позволяя планировать будущие наблюдения и будущие действия.

Команда отмечает, что в этом подходе использовались дискретные автоэнкодеры для захвата различных возможных результатов действия в стохастической среде. Нейронные сети, известные как автоэнкодеры, принимают входные данные, кодируют их в латентное представление, а затем декодируют обратно в исходную форму. Использование дискретных автоэнкодеров позволило отобразить несколько альтернативных результатов, возникающих из поведения агента в стохастическом контексте.

Команда использовала стохастическую версию поиска по дереву Монте-Карло, чтобы облегчить планирование в таких контекстах. Один из популярных подходов к принятию решений в процессах планирования и принятия решений – это поиск по дереву Монте-Карло. В этом случае стохастический вариант позволяет учитывать неопределенность окружающей среды. Помимо действий агента, в процесс планирования были включены дискретные латентные переменные, указывающие возможные ответы среды. Этот всеобъемлющий подход стремится улавливать сложность, вызванную частичной наблюдаемостью и стохастичностью.

Команда оценила предложенный подход, который продемонстрировал превосходство над автономной версией MuZero, известной системы обучения с подкреплением, в стохастической интерпретации шахмат. Согласно этой перспективе, оппонент вносит неопределенность в систему и рассматривается как неотъемлемая часть окружающей среды. Эффективная реализация предложенного подхода в DeepMind Lab доказала масштабируемость этого подхода. Положительные результаты, наблюдаемые в этом сценарии, демонстрируют гибкость и эффективность подхода в управлении сложными и динамическими контекстами, превышающими традиционные настольные игры.

В заключение, эта модельно-основанная техника обучения с подкреплением расширяет эффективность в полностью наблюдаемых, детерминированных средах на частично наблюдаемые, стохастические условия. Дискретные автоэнкодеры и стохастическая версия поиска по дереву Монте-Карло показывают себя с хорошей стороны в понимании трудностей, возникающих в неопределенных средах, что повышает производительность в практических приложениях.