Исследователи компании Apple предлагают метод Reinforcement Learning Policy (LLaRP) на основе больших языковых моделей подход искусственного интеллекта, с помощью которого LLM-модели могут быть настроены для действия в качестве полезных моделей для

Модель Reinforcement Learning Policy (LLaRP) на основе языковых моделей компании Apple инновационный подход искусственного интеллекта, расширяющий возможности LLM-моделей

Обработка естественного языка, его понимание и генерация перешли на новый уровень с появлением больших языковых моделей (БЯМ). Модели, такие как GPT-3, обладают безупречной способностью распознавания языка, поскольку были обучены на огромных объемах текстового материала. Их полезность выходит далеко за рамки языковых задач, так как они демонстрируют исключительные навыки в таких областях, как инкарнационное мышление, рассуждения, визуальное понимание, системы диалога, разработка кода и даже управление роботами.

То, что многие из этих способностей проявляются без потребности в специализированных тренировочных данных, очень увлекательно, потому что это показывает, насколько широким и общим является понимание этих моделей. БЯМ способны обрабатывать задачи, требующие ввода и вывода, которые не могут быть легко выражены только словами. Они также способны выдавать команды роботу в качестве вывода или воспринимать изображения в качестве ввода.

Суть Инкарнированного ИИ заключается в разработке агентов, которые могут делать выводы, которые могут быть перенесены на другие задачи и используемы в широком смысле. Статические наборы данных, требующие больших затрат на разнообразные экспертные данные, исторически являлись основным источником развития использования БЯМ в Инкарнированном ИИ. В качестве альтернативы, агенты могут учиться в виртуальной среде с помощью взаимодействия, исследования и обратной связи с помощью симуляторов Инкарнированного ИИ. Однако способности таких агентов к обобщению часто не удовлетворяют тому, что было показано в других областях.

В недавних исследованиях команда ученых предложила новый подход, названный Большая Языковая Модель с Обучением с Подкреплением Политик (LLaRP), с помощью которого БЯМ может быть настроена для действия как обобщаемые политики для задач связанных с визуальным инкарнированием. Используя предварительно обученную фиксированную БЯМ, этот подход обрабатывает текстовые команды и визуальные эгоцентричные наблюдения, чтобы в режиме реального времени генерировать действия внутри среды. LLaRP обучена воспринимать окружающую среду и взаимодействовать только с помощью обратной связи с ней с помощью обучения с подкреплением.

Основные результаты исследования, представленные командой:

  1. Стойкость к сложному перефразированию: LLaRP проявляет исключительную устойчивость к сложным по формулировке перефразам инструкций задачи. Это означает, что, сохраняя намеченное поведение, он может понимать и выполнять инструкции, даными разными способами. Он способен приспособиться к новым лингвистическим формулировкам для одной и той же задачи.
  1. Обобщение на новые задачи: Одним из замечательных аспектов LLaRP является его способность к обобщению. Он способен браться за новые задачи, которые требуют полностью оригинальных и идельных по условиям поведений. Он продемонстрировал своё разнообразие и адаптивность, приспособившись к задачам, с которыми он не сталкивался во время обучения.
  1. Замечательный показатель успеха: LLaRP продемонстрировал удивительный успех в 42% на наборе из 1,000 непросмотренных задач. По сравнению с другими широко используемыми базовыми моделями обучения или нулевыми БЯМ-приложениями, этот показатель успеха в 1.7 раза выше. Это показывает лучшую производительность и способность обобщения подхода LLaRP.
  1. Выпуск бенчмарка: Для улучшения понимания исследовательского сообщества о языкозависимых, массово многоцелевых задачах Инкарнированного ИИ, исследовательская команда опубликовала новый бенчмарк под названием “Перестановка Языка”. В этом бенчмарке включены обширные наборы данных с 150,000 тренировочных и 1,000 тестовых задач по языкозависимой перестановке. Он является отличным инструментом для исследователей, желающих узнать больше и развивать эту область ИИ.

В заключение, LLaRP безусловно является невероятным подходом, который адаптирует предварительно обученные БЯМ для визуальных задач и в целом демонстрирует выдающуюся производительность, устойчивость и обобщаемость.