Исследователи Университета Калифорнии в Сан-Диего представляют TD-MPC2 революционное развитие модельно-ориентированного обучения с подкреплением в различных сферах.

Ученые из Университета Калифорнии в Сан-Диего представляют TD-MPC2 революционный прогресс модельного обучения с подкреплением в различных областях

Большие модели языка (БМЯ) постоянно совершенствуются, благодаря прогрессу в области искусственного интеллекта и машинного обучения. БМЯ делают значительные успехи в подобластях ИИ, включая обработку естественного языка, понимание естественного языка, генерацию естественного языка и компьютерное зрение. Эти модели обучаются на масштабных наборах данных от интернета, чтобы разработать универсальные модели, способные решать широкий спектр задач языка и визуальных задач. Доступность больших наборов данных и хорошо продуманных архитектур, которые эффективно масштабируются вместе с данными и размером модели, заслуживают признания за этот рост.

В последнее время БМЯ успешно применяются в робототехнике. Однако все еще предстоит создать универсального воплощенного агента, который научится выполнять множество управляющих задач с помощью низкоуровневых действий, используя большие неотсортированные наборы данных. Существующие подходы к универсальным воплощенным агентам сталкиваются с двумя основными препятствиями, а именно:

  1. Предположение о траекториях почти эксперта: Из-за ограниченности доступных данных многие существующие методы клонирования поведения полагаются на траектории почти эксперта. Это подразумевает, что агенты менее гибкие к различным задачам, поскольку им требуются демонстрации эксперта-подобного высокого качества для обучения.
  1. Отсутствие масштабируемых методов непрерывного управления: Большие неотсортированные наборы данных не могут быть эффективно обработаны многими масштабируемыми методами непрерывного управления. Многие существующие алгоритмы обучения с подкреплением (RL) полагаются на специфические для задачи гиперпараметры и оптимизированы для обучения одной задаче.

В качестве решения этих задач команда исследователей недавно представила TD-MPC2, расширение семейства алгоритмов TD-MPC (Моделирующего контроля на основе траекторий). Большие, неотсортированные наборы данных, охватывающие различные области задач, воплощения и пространства действий, использовались для обучения TD-MPC2, системы для построения универсальных моделей мира. Одной из его значительных особенностей является то, что он не требует настройки гиперпараметров.

Основные элементы TD-MPC2 следующие:

  1. Локальная оптимизация траекторий в латентном пространстве: Без необходимости декодирования, TD-MPC2 выполняет локальную оптимизацию траекторий в латентном пространстве обученной неявной модели мира.
  1. Алгоритмическая устойчивость: Повторное рассмотрение важных проектных решений делает алгоритм более устойчивым.
  1. Архитектура для различных воплощений и пространств действий: Без потребности в предварительной предметной экспертизе, архитектура продуманно создана для поддержки наборов данных с различными воплощениями и пространствами действий.

Команда поделилась, что при оценке TD-MPC2 регулярно демонстрирует лучшую производительность по сравнению с уже существующими подходами модельного и модельно-независимого обучения на множестве непрерывных задач управления. Он особенно хорошо работает в трудных подмножествах, таких как захват и перемещение и задачи передвижения. Увеличение возможностей агента свидетельствует о масштабируемости по мере увеличения размеров модели и данных.

Команда подчеркнула некоторые заметные характеристики TD-MPC2, которые следующие:

  1. Улучшенная производительность: Применение TD-MPC2 на различных задачах RL дает преимущества по сравнению с базовыми алгоритмами.
  1. Согласованность с одним набором гиперпараметров: Одним из ключевых преимуществ TD-MPC2 является его способность достоверно получать впечатляющие результаты с помощью одного набора гиперпараметров. Это упрощает процедуру настройки и облегчает применение в различных задачах.
  1. Масштабируемость: Возможности агента увеличиваются по мере роста размера модели и данных. Эта масштабируемость важна для обработки более сложных задач и адаптации к различным ситуациям.

Команда обучила одного агента с 317 миллионами параметров для выполнения 80 задач, демонстрируя масштабируемость и эффективность TD-MPC2. Эти задачи требуют различных воплощений, то есть физических форм агента, и пространств действий в нескольких областях задач. Это демонстрирует гибкость и силу TD-MPC2 при решении широкого спектра сложностей.