Эта статья ИИ раскрывает свои таланты как языковые модели настраиваются на оффлайн-обучение с поддержкой ‘LaMo’ танцевальных шагов и обучение с небольшим числом примеров

Языковые модели ИИ приобретают новые таланты обучение оффлайн с поддержкой LaMo танцевальных шагов и небольшим количеством примеров

Исследователи представляют языковые модели для управления движением (LaMo), фреймворк, использующий большие языковые модели (LLM) для офлайн-обучения с подкреплением. Он использует предобученные LLM, чтобы улучшить обучение политике с подкреплением, используя инициализированные LLM решающие трансформеры (DT) и дообучение с помощью LoRA. LaMo превосходит существующие методы в задачах с разреженной наградой и сокращает разрыв между оффлайн-обучением с подкреплением на основе ценностей и решающими трансформерами в задачах с плотной наградой, особенно преуспевая в сценариях с ограниченными выборками данных.

Текущие исследования исследуют синергию между трансформерами, особенно DT, и LLM для принятия решений в задачах с подкреплением. LLM ранее продемонстрировали свой потенциал в разработке задач высокого уровня и генерации политики. LaMo – новый фреймворк, использующий предобученные LLM для задач управления движением, превосходящий существующие методы в сценариях с разреженной наградой и сокращающий разрыв между оффлайн-обучением с подкреплением на основе ценностей и решающими трансформерами в задачах с плотной наградой. Он строится на предыдущих работах, таких как Wiki-RL, стремясь лучше использовать предобученные LMs для офлайн-обучения с подкреплением.

Подход переформулирует обучение с подкреплением как задачу условного моделирования последовательностей. LaMo превосходит существующие методы путем комбинирования LLM с DT и вводит инновации, такие как LoRA дообучение, нелинейные MLP-проекции и вспомогательную потерю языка. Он преуспевает в задачах с разреженной наградой и сокращает разрыв в производительности между оценочно-ориентированными и DT-ориентированными методами в сценариях с плотной наградой.

Фреймворк LaMo для оффлайн-обучения с подкреплением включает предобученные LMs и DTs. Он улучшает обучение представлений с помощью многослойных перцептронов и использует LoRA дообучение с вспомогательной потерей прогнозирования языка для эффективного совмещения знаний LMs. Проведены обширные эксперименты на различных задачах и средах, оценивающие производительность при разных соотношениях данных, сравнивая его с сильными основными моделями оффлайн-обучения с подкреплением, такими как CQL, IQL, TD3BC, BC, DT и Wiki-RL.

Фреймворк LaMo превосходит себя в задачах с разреженной и плотной наградой, превосходя решающий трансформер и Wiki-RL. Он превосходит несколько сильных основных моделей оффлайн-обучения с подкреплением, включая CQL, IQL, TD3BC, BC и DT, избегая переобучения. Робустность обучения LaMo, особенно при ограниченных данных, получает выгоду от внутреннего стереотипа предобученных LMs. Оценка бенчмарка D4RL и тщательные исследования абляции подтверждают эффективность каждого компонента в рамках фреймворка.

В итоге фреймворк LaMo использует предобученные LMs для управления движением в оффлайн-обучении с подкреплением, достигая превосходной производительности в задачах с разреженной наградой по сравнению с CQL, IQL, TD3BC и DT. Он сокращает разрыв в производительности между оценочно-ориентированными и DT-ориентированными методами в задачах с плотной наградой. LaMo преуспевает в обучении на малом количестве данных благодаря внутреннему стереотипу предобученных LMs. Признавая некоторые ограничения, включая конкурентоспособность CQL и вспомогательную потерю прогнозирования языка, исследование стремится вдохновить дальнейшее исследование более крупных LMs в оффлайн-обучении с подкреплением.