Новые исследования в области машинного обучения от MIT предлагают композиционные модели основы для иерархического планирования (HiP) интеграция языка, зрения и действия для решения задач с долгосрочной перспективой.

Новые исследования от MIT предлагают композиционные модели для интеграции языка, зрения и действия в иерархическом планировании (HiP) для решения долгосрочных задач.

Подумайте о вызове приготовления чашки чая в незнакомом доме. Эффективная стратегия для выполнения этой задачи заключается в иерархическом рассуждении на нескольких уровнях, включая абстрактный уровень (например, высокоуровневые шаги, необходимые для нагрева чая), конкретный геометрический уровень (например, как они должны физически перемещаться в и через кухню) и уровень управления (например, как они должны двигать свои суставы, чтобы поднять чашку). Абстрактный план поиска чайников в шкафах также должен быть физически осуществим на геометрическом уровне и выполним с учетом доступных действий. Поэтому крайне важно, чтобы рассуждение на каждом уровне было согласовано друг с другом. В этом исследовании исследуется разработка уникальных ботов для решения задач с долгосрочной перспективой, способных применять иерархическое рассуждение.

Большие “фундаментальные модели” лидируют в решении проблем математического рассуждения, компьютерного зрения и обработки естественного языка. Создание “фундаментальной модели”, способной решать уникальные проблемы долгосрочного принятия решений, является вопросом, который привлекает много внимания в контексте этой парадигмы. В нескольких предыдущих исследованиях были собраны согласованные визуальные, языковые и действия данные, и обучалась одна нейронная сеть для решения задач долгосрочного принятия решений. Однако масштабирование совместного сбора визуальных, языковых и действий данных является дорогостоящим и сложным. В других исследованиях используются задачно-специфические демонстрации роботов для улучшения больших языковых моделей (LLM) на визуальных и языковых входах. Это вызывает опасения, поскольку, в отличие от богатого материала, доступного в Интернете, примеры связанных с визуальным и языковым роботами сложно найти и дорого собрать.

Кроме того, из-за закрытого исходного кода моделей, в настоящее время трудно настраивать высокопроизводительные языковые модели, такие как GPT3.5/4 и PaLM. Основная особенность фундаментальной модели заключается в том, что для решения новой задачи или адаптации к новой среде она требует гораздо меньше данных, чем если бы она должна была изучать работу или область с нуля. В этой работе исследуется масштабируемая альтернатива трудоемкому и дорогостоящему процессу сбора сопряженных данных по трем модальностям для создания фундаментальной модели для долгосрочного планирования. Можно ли это сделать, оставаясь при этом достаточно эффективным в решении новых задач планирования?

Исследователи из Improbable AI Lab, MIT-IBM Watson AI Lab и Massachusetts Institute Technology предлагают Композиционные фундаментальные модели для иерархического планирования (HiP), фундаментальную модель, состоящую из множества экспертных моделей, обученных независимо на языковых, визуальных и действиях данных. Количество данных, необходимых для построения фундаментальных моделей, значительно сокращается, так как эти модели вводятся отдельно (рисунок 1). HiP использует большую языковую модель для определения серии подзадач (т.е. планирования) из абстрактной языковой инструкции, определяющей задачу. Затем HiP разрабатывает более сложный план в виде траектории только наблюдения с использованием большой модели видеодиффузии для получения геометрической и физической информации о среде. Наконец, HiP использует крупную обратную модель, которая была ранее обучена, и преобразует серию эгоцентрических изображений в действия.

Рисунок 1: На рисунке показаны композиционные фундаментальные модели для иерархического планирования. HiP использует три модели: модель задачи (представленную LLM) для создания абстрактного плана, визуальную модель (представленную видеомоделью) для создания плана траектории изображений; и эгоцентрическую модель действий для вывода действий из траектории изображений.

Не требуя сбора дорогостоящих сопряженных данных принятия решений по модальностям, композиционный дизайн позволяет различным моделям рассуждать на разных уровнях иерархии и совместно делать экспертные выводы. Три отдельно обученные модели могут генерировать противоречивые результаты, что может привести к неудаче во всем процессе планирования. Например, выбор выхода с наибольшей вероятностью на каждом этапе является наивным методом построения моделей. Шаг в плане, такой как поиск чайника в шкафу, может иметь высокий шанс по одной модели, но нулевую вероятность по другой, например, если в доме нет шкафа. Вместо этого важно выбирать стратегию, которая совместно максимизирует вероятность по всем профессиональным моделям.

Они предлагают итеративную технику уточнения для обеспечения согласованности, используя обратную связь от моделей нижестоящих уровней для разработки согласованных планов в их разнообразных моделях. Распределение выходов генеративного процесса языковой модели включает промежуточную обратную связь от оценщика вероятности, условионированного на представление текущего состояния на каждом этапе. Аналогично, промежуточный вход от модели действия улучшает создание видео на каждом этапе процесса разработки. Этот итеративный процесс уточнения способствует достижению консенсуса между множеством моделей для создания иерархически согласованных планов, которые одновременно отвечают поставленной цели и могут быть выполнены в существующем состоянии и агенте. Предлагаемый ими метод итеративного уточнения не требует обширной настройки модели, что делает обучение вычислительно эффективным.

Кроме того, им не требуется знание весов модели, и их стратегия применима ко всем моделям, которые предоставляют доступ к API ввода и вывода. В заключение, они предоставляют модель основы для иерархического планирования, которая использует композицию моделей основ, полученных независимо на различных модальностях данных Интернета и робототехники с эго-центрическим подходом, для создания планов с долгосрочной перспективой. На трех долгосрочных ситуациях манипуляции на столе они показывают многообещающие результаты.