Исследователи из Стэнфорда, NVIDIA и Университета Техаса в Остине предлагают кросс-эпизодический курс (CEC) новый алгоритм искусственного интеллекта для повышения эффективности обучения и обобщения трансформерных агентов.
Новый алгоритм искусственного интеллекта для повышения эффективности обучения и обобщения трансформерных агентов предложен исследователями из Стэнфорда, NVIDIA и Университета Техаса в Остине
Проблемы последовательного принятия решений находятся в процессе серьезной трансформации вследствие парадигмального сдвига, вызванного внедрением фундаментальных моделей. Эти модели, такие как модели-трансформеры, полностью изменили ряд областей, включая планирование, управление и предварительное обучение визуальному представлению. Несмотря на эти впечатляющие достижения, применение таких алгоритмов, требующих большого объема данных, в областях, где данных меньше, является серьезным препятствием. Возникает вопрос о возможности максимизации ограниченного количества доступных данных, независимо от их источника или качества, для поддержки более эффективного обучения.
Для решения этих проблем исследователи недавно представили уникальный алгоритм, названный Cross-Episodic Curriculum (CEC). Техника CEC использует отличия в распределении различных опытов при составлении учебного плана. Целью CEC является улучшение обучения и обобщения моделей-трансформеров. Основная концепция CEC заключается в интеграции через-эпизодные опыты в модель-трансформер для создания учебного плана. В этом плане онлайн-обучение и демонстрации с разным качеством упорядочены пошаговым образом, что позволяет учесть кривую обучения и повышение навыков на протяжении нескольких эпизодов. CEC создает мощный механизм внимания через-эпизодных событий с использованием сильных возможностей моделей-трансформеров по распознаванию шаблонов.
Команда предоставила два примера для иллюстрации эффективности CEC:
- Исследователи из Национального университета Сингапура предлагают модель Show-1 гибридную искусственную нейронную сеть, которая сочетает пиксельные и латентные вариационные автоэнкодеры для генерации видео из текста.
- Исследователи Amazon представляют компилятор глубокого обучения для тренировки, состоящий из трех основных функций оптимизатора Syncfree, кэширования компилятора и многопоточного выполнения.
- Это исследование искусственного интеллекта представляет Flash-Decoding новый подход искусственного интеллекта на основе FlashAttention, который делает выводы LLM с длинным контекстом в 8 раз быстрее.
- “Multi-Task Reinforcement Learning with Discrete Control” в DeepMind Lab: В этом сценарии CEC используется для решения задачи многозадачного обучения с дискретным управлением. Учебный план, разработанный CEC, учитывает путь обучения как в индивидуальных, так и в постепенно усложняющихся сценариях. Это позволяет постепенно овладевать все более сложными задачами, обучаясь и приспосабливаясь шаг за шагом.
- “Imitation Learning Using Mixed-Quality Data for Continuous Control” в RoboMimic: В этом сценарии используется непрерывное управление и обучение имитации на основе данных смешанного качества. Цель учебного плана, созданного CEC, заключается в отслеживании повышения уровня компетенции демонстрантов.
Политики, полученные с помощью CEC, продемонстрировали выдающуюся эффективность и сильную обобщающую способность в обоих сценариях, что свидетельствует о том, что CEC является жизнеспособной стратегией для повышения адаптивности и эффективности обучения моделей-трансформеров в различных контекстах. Метод Cross-Episodic Curriculum включает два ключевых шага:
- Подготовка учебных данных: Это первый шаг в процессе CEC. Он предполагает упорядочение событий по определенному порядку и структуре. Для наглядного иллюстрирования учебных шаблонов эти события упорядочиваются в определенной последовательности. Эти шаблоны могут иметь различные формы, такие как улучшение политики в отдельных средах, прогресс обучения в постепенно усложняющихся средах и повышение компетенции демонстранта.
- Обучение модели через-эпизодного внимания: Это второй ключевой этап в обучении модели. Модель обучается предсказывать действия на этом этапе обучения. Особенность этого метода состоит в том, что модель может обратиться к предыдущим эпизодам, а не только к текущему. Она способна усвоить улучшения и корректировки политики, отмеченные в учебных данных. Благодаря использованию предыдущего опыта модель может обучаться более эффективно.
Визуализацию этих этапов обычно представляют с помощью цветных треугольников, которые символизируют причинно-следственные модели-трансформеры. Эти модели являются важной частью метода CEC, так как они значительно облегчают включение через-эпизодных событий в процесс обучения. Рекомендации, предлагаемые моделью и обозначенные как “a^”, являются ключевыми для принятия решений.