Исследователи из Стэнфорда представляют RT-Sketch повышение обучения визуальной имитации с помощью рукописных набросков в качестве целевых спецификаций.

RT-Sketch повышение обучения визуальной имитации с помощью рукописных набросков в качестве целевых спецификаций – исследование от Стэнфордских ученых

Исследователи представили ручные эскизы как неисследованную модальность для определения целей в области обучения визуальной имитации. Эскизы предлагают баланс между неопределенностью естественного языка и переспецификацией изображений, позволяя пользователям быстро передавать цели задачи. Их исследование предлагает RT-Sketch, политику манипуляции с условием цели, которая принимает ручные эскизы желаемых сцен в качестве входных данных и генерирует соответствующие действия. Обучение на парных траекториях и синтетических эскизах, RT-Sketch демонстрирует устойчивую производительность в различных задачах манипуляции, превосходя агентов на основе языка в сценариях с неопределенными целями или визуальными отвлечениями.

Исследование вдавается в существующие подходы в обучении визуальной имитации с условием цели, сосредотачиваясь на традиционных представлениях целей, таких как естественный язык и изображения. Оно подчеркивает ограничения представлений, акцентируя внимание на необходимости использования более абстрактных и точных альтернатив, таких как эскизы. Оно отмечает текущую работу по преобразованию изображений в эскизы для их интеграции в обучение на основе целей. Оно ссылается на предыдущие исследования, которые полагаются на язык или изображения для условий цели и исследуют мультимодальные подходы, сочетающие оба. Обсуждается использование преобразования изображения в эскиз для вспомогательной перенумерации конечных изображений в наборе данных демонстрации.

Подход указывает на недостатки команд на естественном языке, которые могут быть неточными, и целевых изображений, которые часто являются слишком детализированными и сложными для обобщения. Он предлагает ручные эскизы как многообещающую альтернативу для определения целей в области визуального обучения в искусстве имитации, предлагая большую специфичность, чем язык, и помогая в разрешении задач, связанных с объектами, имеющими отношение к задаче. Эскизы удобны в использовании и интегрированы в существующую архитектуру политики RT-Sketch. Эта политика с условием цели принимает ручные эскизы желаемых сцен в качестве входных данных и генерирует соответствующие действия.

RT-Sketch – это политика манипуляции, которая принимает ручные эскизы сцен в качестве входных данных и обучена на наборе данных из парных траекторий и синтетических целевых эскизов. Она модифицирует оригинальную политику RT-1, удаляя токенизацию языка FiLM и заменяя ее конкатенацией целевых изображений или эскизов с историей изображений в качестве входных данных для EfficientNet. Обучение осуществляется методом или поведенческой клонирования для минимизации логарифма правдоподобия действия для данного наблюдения и цели-эскиза. Сеть генерации изображений в эскиз дополняет набор данных RT-1 целевыми эскизами для обучения RT-Sketch. Исследование оценивает профессионализм RT-Sketch в работе с эскизами разной детализации, включая ручные рисунки, линии и цветные изображения.

Исследование показало, что RT-Sketch выполняет свои задачи конкурентоспособно, сравнимо с агентами, условием которых являются изображения или язык в простых сценариях. Особенно примечательна его высокая эффективность в достижении целей на основе ручных эскизов. RT-Sketch обладает большей устойчивостью, чем цели на основе языка, при работе с неопределенностью или визуальными отвлечениями. Оценка включает измерение пространственной точности с использованием расстояния пикселя за пикселем и семантического и пространственного выравнивания, оцениваемого людьми с использованием шкалы Ликерта с семью уровнями мнения. Признавая его ограничения, исследование подчеркивает необходимость проверки способности RT-Sketch к обобщению через эскизы от разных пользователей и случайное неправильное выполнение умений.

В заключение, введенный RT-Sketch, политика манипуляции с условием цели, использующая ручные эскизы, демонстрирует производительность, сравнимую с установленными политиками на основе языка или целей-изображений в различных задачах манипуляции. Она проявляет повышенную устойчивость к визуальным отвлечениям и неопределенностям цели. Гибкость RT-Sketch видна в его способности понимать эскизы разной специфичности, от простых линейных черт до сложных, цветных изображений. Будущие исследования могут расширить возможности ручных иллюстраций, охватив более структурированные представления, такие как схемы или диаграммы для сборки задачей.