Как роботы могут принимать лучшие решения? Исследователи Массачусетского технологического института и Стэнфордского университета представляют Diffusion-CCSP для продвинутого робототехнического мышления и планирования
Роботы принимают лучшие решения с помощью Diffusion-CCSP, разработанного Массачусетским технологическим институтом и Стэнфордским университетом.
Способность выбирать непрерывные значения, такие как захваты и размещение объектов, которые удовлетворяют сложным геометрическим и физическим ограничениям, таким как устойчивость и отсутствие столкновений, является важным для планирования робототехнической манипуляции. Сэмплеры для каждого типа ограничений традиционно обучались или оптимизировались отдельно в существующих методах. Однако для решения сложных задач требуется универсальный решатель, который может генерировать значения, одновременно удовлетворяющие широкому спектру ограничений.
Из-за недостатка данных построение или обучение одной модели, удовлетворяющей всем потенциальным требованиям, может быть сложным. В результате, универсальные планировщики роботов должны иметь возможность повторно использовать и строить решатели для более крупных задач.
Как единая рамка, недавние исследования Массачусетского технологического института (MIT) и Стэнфордского университета предлагают использовать графы ограничений для выражения задач удовлетворения ограничений как новых комбинаций изученных типов ограничений. Затем они могут использовать решатели ограничений на основе моделей диффузии, чтобы найти решения, которые одновременно удовлетворяют ограничениям. Примером переменной решения является захватывающая стойка, хотя поза размещения или траектория робота также являются примерами узлов в графе ограничений.
- Исследователи из Microsoft представляют Hydra-RLHF памяти-эффективное решение для обучения с подкреплением с помощью обратной связи от человека.
- Исследователи МТИ предлагают AskIt язык специального назначения для оптимизации интеграции больших языковых моделей в программной разработке.
- Исследователи компании Apple предлагают новую модель тензорного разложения для коллаборативной фильтрации с неявной обратной связью.
Для решения новых задач композиционный диффузионный решатель ограничений (Diffusion-CCSP) обучает набор моделей диффузии для различных ограничений. Затем он объединяет обучающие модули, чтобы найти удовлетворяющие назначения через процесс диффузии, генерирующий разные образцы из допустимой области. Конкретно, каждая модель диффузии обучается производить приемлемые решения для одного класса ограничений (например, положения, избегающие столкновений). Во время вывода исследователи могли условно решать любое подмножество переменных и решать остальные, так как модели диффузии являются генеративными моделями набора решений. Каждая модель диффузии обучается минимизировать неявную энергетическую функцию, делая задачу удовлетворения глобальных ограничений эквивалентной минимизации энергии решений в целом (здесь просто сумма энергетических функций отдельных решений). Эти два дополнения предоставляют значительные возможности для настройки в обучении и выводе.
Отдельно или совместно можно использовать композиционные пары проблемы и решения для обучения компонентных моделей диффузии. Даже когда граф ограничений содержит больше переменных, чем было учтено во время обучения, Diffusion-CCSP может обобщаться на новые комбинации известных ограничений во время выполнения.
Исследователи тестируют Diffusion-CCSP на четырех сложных областях, включая плотную упаковку треугольников в двух измерениях, расположение формы в двух измерениях с учетом качественных ограничений, укладку форм в трех измерениях с учетом ограничений устойчивости и упаковку предметов в трех измерениях с использованием роботов. Результаты показывают, что этот метод превосходит базовые методы по скорости вывода и обобщению на новые комбинации ограничений и более ограниченные проблемы.
Команда подчеркивает, что все рассмотренные в этой работе ограничения имеют фиксированную арность. Учет ограничений и переменной арности является интересным направлением для исследования. Они также считают, что было бы полезно, если бы их модель могла принимать естественноязыковые инструкции. Кроме того, текущий метод создания меток и решений для задач ограничен, особенно при работе с качественными ограничениями, такими как “накрытие стола для обеда”. Они предлагают, чтобы будущие разработки использовали более сложные кодировщики формы и изучали ограничения, полученные из реальных данных, таких как онлайн-фотографии, для расширения области применения текущих и будущих приложений.