Исследователи из Стэнфорда, NVIDIA и Университета Техаса в Остине предлагают кросс-эпизодический курс (CEC) новый алгоритм искусственного интеллекта для повышения эффективности обучения и обобщения трансформерных агентов.

Новый алгоритм искусственного интеллекта для повышения эффективности обучения и обобщения трансформерных агентов предложен исследователями из Стэнфорда, NVIDIA и Университета Техаса в Остине

Проблемы последовательного принятия решений находятся в процессе серьезной трансформации вследствие парадигмального сдвига, вызванного внедрением фундаментальных моделей. Эти модели, такие как модели-трансформеры, полностью изменили ряд областей, включая планирование, управление и предварительное обучение визуальному представлению. Несмотря на эти впечатляющие достижения, применение таких алгоритмов, требующих большого объема данных, в областях, где данных меньше, является серьезным препятствием. Возникает вопрос о возможности максимизации ограниченного количества доступных данных, независимо от их источника или качества, для поддержки более эффективного обучения.

Для решения этих проблем исследователи недавно представили уникальный алгоритм, названный Cross-Episodic Curriculum (CEC). Техника CEC использует отличия в распределении различных опытов при составлении учебного плана. Целью CEC является улучшение обучения и обобщения моделей-трансформеров. Основная концепция CEC заключается в интеграции через-эпизодные опыты в модель-трансформер для создания учебного плана. В этом плане онлайн-обучение и демонстрации с разным качеством упорядочены пошаговым образом, что позволяет учесть кривую обучения и повышение навыков на протяжении нескольких эпизодов. CEC создает мощный механизм внимания через-эпизодных событий с использованием сильных возможностей моделей-трансформеров по распознаванию шаблонов.

Команда предоставила два примера для иллюстрации эффективности CEC:

  1. “Multi-Task Reinforcement Learning with Discrete Control” в DeepMind Lab: В этом сценарии CEC используется для решения задачи многозадачного обучения с дискретным управлением. Учебный план, разработанный CEC, учитывает путь обучения как в индивидуальных, так и в постепенно усложняющихся сценариях. Это позволяет постепенно овладевать все более сложными задачами, обучаясь и приспосабливаясь шаг за шагом.
  1. “Imitation Learning Using Mixed-Quality Data for Continuous Control” в RoboMimic: В этом сценарии используется непрерывное управление и обучение имитации на основе данных смешанного качества. Цель учебного плана, созданного CEC, заключается в отслеживании повышения уровня компетенции демонстрантов.

Политики, полученные с помощью CEC, продемонстрировали выдающуюся эффективность и сильную обобщающую способность в обоих сценариях, что свидетельствует о том, что CEC является жизнеспособной стратегией для повышения адаптивности и эффективности обучения моделей-трансформеров в различных контекстах. Метод Cross-Episodic Curriculum включает два ключевых шага:

  1. Подготовка учебных данных: Это первый шаг в процессе CEC. Он предполагает упорядочение событий по определенному порядку и структуре. Для наглядного иллюстрирования учебных шаблонов эти события упорядочиваются в определенной последовательности. Эти шаблоны могут иметь различные формы, такие как улучшение политики в отдельных средах, прогресс обучения в постепенно усложняющихся средах и повышение компетенции демонстранта.
  1. Обучение модели через-эпизодного внимания: Это второй ключевой этап в обучении модели. Модель обучается предсказывать действия на этом этапе обучения. Особенность этого метода состоит в том, что модель может обратиться к предыдущим эпизодам, а не только к текущему. Она способна усвоить улучшения и корректировки политики, отмеченные в учебных данных. Благодаря использованию предыдущего опыта модель может обучаться более эффективно.

Визуализацию этих этапов обычно представляют с помощью цветных треугольников, которые символизируют причинно-следственные модели-трансформеры. Эти модели являются важной частью метода CEC, так как они значительно облегчают включение через-эпизодных событий в процесс обучения. Рекомендации, предлагаемые моделью и обозначенные как “a^”, являются ключевыми для принятия решений.