Исследователи Microsoft представляют InstructDiffusion универсальную и общую интеллектуальную систему для выравнивания задач компьютерного зрения с инструкциями человека.

Microsoft researchers present InstructDiffusion, a universal and general intelligent system for aligning computer vision tasks with human instructions.

В революционном прорыве в сторону адаптивных, универсальных моделей компьютерного зрения исследователи из Майкрософт Рисерч Азия представили InstructDiffusion. Эта инновационная платформа переворачивает весь ландшафт компьютерного зрения, предоставляя унифицированный интерфейс для множества задач зрения. В статье “InstructDiffusion: интерфейс моделирования общего назначения для задач зрения” представлена модель, способная безупречно обрабатывать одновременно различные задачи зрения.

В основе InstructDiffusion лежит новый подход: формулировка задач зрения как процессов интуитивной для человека обработки изображений. В отличие от традиционных методов, которые полагаются на заранее заданные выходные пространства, такие как категории или координаты, InstructDiffusion работает в гибком пиксельном пространстве, более близком к человеческому восприятию.

Модель разработана для изменения входных изображений на основе текстовых инструкций, предоставленных пользователем. Например, директива вроде “обведи красным кругом правый глаз мужчины” дает модели возможность выполнять задачи, такие как обнаружение ключевых точек. В то же время инструкции вроде “примените синюю маску к самой правой собаке” служат для сегментации.

В основе этой платформы лежат вероятностные модели диффузии с устранением шума (DDPM), которые генерируют пиксельные выходы. Обучающие данные включают тройки, состоящие из инструкции, исходного изображения и целевого выходного изображения. Модель готова справиться с тремя основными типами выходов: RGB-изображениями, бинарными масками и ключевыми точками. Это покрывает широкий спектр задач зрения, включая сегментацию, обнаружение ключевых точек, редактирование и улучшение изображений.

Обнаружение ключевых точек

a) Создайте желтый круг вокруг правого глаза кита. (б) Обведите логотип автомобиля синим кругом.

Сегментация

a) Обведите синим пиксели кошки в зеркале и оставьте остальные без изменений. (б) Покрасьте синим пиксели тени и сохраните текущий вид остальных пикселей.

Редактирование изображений

Результаты работы модели

Задачи низкого уровня

InstructDiffusion также применим для задач низкого уровня, включая размытие изображений, удаление шума и водяных знаков.

Эксперименты показывают потенциал InstructDiffusion, превосходящий специализированные модели в отдельных задачах. Однако истинное чудо заключается в его способности к обобщению. Он обладает тем характерным качеством, которое часто ассоциируется с искусственным общим интеллектом (AGI), умело адаптируясь к задачам, с которыми он не сталкивался во время обучения. Это является значительным шагом в направлении унифицированной, гибкой платформы для компьютерного зрения, способной продвигать всю область.

Одним из ключевых открытий было то, что одновременное обучение модели на разнообразных задачах значительно усилило ее способность к обобщению в новых сценариях. InstructDiffusion проявила выдающуюся эффективность на наборах данных HumanArt и AP-10K для обнаружения ключевых точек, несмотря на отличие их распределений данных от обучающих данных.

Исследовательская группа подчеркивает критическую важность высокодетализированных инструкций для улучшения обобщающих возможностей модели. Простые названия задач, такие как “семантическая сегментация”, оказались недостаточными, приводя к низкой производительности, особенно на новых типах данных. Это подчеркивает способность InstructDiffusion понимать конкретные значения и намерения, лежащие в основе подробных инструкций, вместо полагания на запоминание.

Подчеркивая понимание, а не запоминание, InstructDiffusion изучает устойчивые визуальные концепции и семантические значения. Это отличие является ключевым в понимании его замечательных обобщающих возможностей. Например, инструкция вроде “окружите левое ухо кошки красным” позволяет модели различать конкретные элементы, такие как “кошка”, “левое ухо” и “красный круг”, демонстрируя ее детальное понимание.

Это прорывное развитие поднимает модели компьютерного зрения на новый уровень, превращая их в универсальных генералистов, отражающих человеческое восприятие. Интерфейс InstructDiffusion вводит гибкость и интерактивность, отсутствующие в большинстве существующих систем компьютерного зрения, сокращая разрыв между пониманием человека и машины в компьютерном зрении. Последствия этого исследования глубоки, так как оно открывает путь к разработке способных многоцелевых визионеров, показывая их потенциал в развитии общего визуального интеллекта на новые высоты.