Исследователи Колумбийского университета и Apple представляют Ferret Революционную мультимодальную языковую модель для продвинутого понимания и описания изображений.

Исследователи Колумбийского университета и Apple представляют Ferret революционная мультимодальная языковая модель для продвинутого понимания и описания изображений

Как облегчить пространственное понимание моделей – это важная проблема для исследований в области обучения зрение-язык. Эта проблема дает два требования: ссылочность и основание. В то время как основание требует от модели локализовать регион в соответствии с заданным семантическим описанием, ссылочность требует полного понимания моделью семантики конкретных областей. В сущности, согласование географической информации и семантики является необходимым знанием для как ссылочности, так и основания. Несмотря на это, ссылочность и основание обычно обучаются отдельно в текущих текстах. Люди, напротив, могут плавно сочетать способности к ссылочности/основанию с повседневным обсуждением и рассуждениями, и они могут учиться из одной деятельности и обобщать общие знания на другую работу без труда.

В этом исследовании они исследуют три ключевые проблемы на фоне вышеуказанного различия. (i) Как можно объединить ссылочность и основание в единую структуру, и как они будут дополнять друг друга? (ii) Как изобразить множество областей, которые люди часто используют для обозначения вещей, таких как точки, рамки, наброски и свободные формы? (iii) Как ссылочность и основание, необходимые для практических приложений, могут стать открытым словарем, следовать инструкциям и быть надежными? Исследователи из Колумбийского университета и Apple AI/ML представляют Ferret, новую многоязыковую модель с многомодальными возможностями для ссылки и основания (MLLM), чтобы решить эти три проблемы. Они первоначально выбрали MLLM в качестве основы Ferret из-за его сильных возможностей по глобальному пониманию зрение-язык. Как показано на рисунке 1, Ferret сначала кодирует координаты областей в числовой форме обычного языка для объединения ссылочности и основания.

Рисунок 3: Общая структура предлагаемой модели Ferret. Смешанное представление областей и визуальный выборщик, учитывающий пространственные характеристики, показаны слева. Общая архитектура модели (справа). Кодировщик изображения – это единственный параметр, который нельзя обучить.

Однако непрактично представлять разнообразные географические формы, такие как штрихи, наброски или сложные многоугольники, с помощью одной точки или коробки координат. Эти формы необходимы для более точного и всестороннего взаимодействия людей с моделью. Чтобы решить эту проблему, они также предлагают визуальный выборщик, учитывающий пространственные характеристики, чтобы получить оптические характеристики областей с любой формой, учитывая переменную разреженность этих форм. Визуальные области ввода затем представлены в Ferret с использованием смешанного представления областей, состоящего из дискретных координат и непрерывных визуальных характеристик. Благодаря вышеупомянутым техникам, Ferret может обрабатывать ввод, объединяющий свободный текст и указанные области, и основывать указанные элементы в своем выводе, автоматически создавая координаты для каждого основного объекта и текста.

Насколько известно, Ferret является первым приложением, которое обрабатывает входные данные от MLLMs с свободными областями формы. Они собрали GRIT, датасет настройки инструкций по ссылке и основанию объемом 1,1 миллиона примеров, чтобы создать возможности для ссылки и основания в Ferret с открытым словарем, следованием инструкциям и устойчивостью. GRIT включает различные слои пространственных знаний, включая описания областей, связи, объекты и сложные рассуждения. Он содержит данные, которые объединяют местоположение и текст как во входном, так и выходном потоке, а также местоположение-в-тексте (ссылочность) и текст-в-местоположение (основание). С помощью тщательно разработанных шаблонов большая часть набора данных трансформируется из текущих задач зрения (-языка), таких как идентификация объектов и земли под фразами, в следование инструкциям.

Для обучения общего понимания инструкций со ссылкой и основанием на общий словарь также было собрано 34 тыс. чатов настройки инструкций со ссылкой и основанием, используя ChatGPT/GPT-4. Они также производят пространственно осознанное отрицательное добычу данных, что повышает надежность модели. Ferret обладает высокой пространственной осведомленностью и способностью к локализации в открытом словаре. Он работает лучше по сравнению с традиционными заданиями ссылки и основания. Более того, они считают, что возможности ссылки и основания должны быть включены в повседневные дискуссии между людьми, например, когда люди обращаются к чему-то незнакомому и спрашивают о его функции. Для оценки этого нового навыка они создали платформу Ferret-Bench, которая включает три новых типа задач: Описание ссылки, Рассуждение по ссылке и Основание в разговоре. Они сравнивают Ferret с лучшими MLLMs, уже используемыми, и находят, что он может превзойти их в среднем на 20,4%. Ferret также обладает замечательной способностью снижать галлюцинации объектов.

Всего они внесли три разных вклада. (i) Они предлагают Ferret, который обеспечивает тонкую и открытую природу ссылки и связи в языковых моделях на основе машинного обучения. Ferret использует гибридное представление региона, оснащенное уникальным визуальным сэмплером со знанием о пространстве. (ii) Они создают GRIT, большой набор данных для обучения модели, направленный на настройку инструкций с отсылками к окружению. Он также включает дополнительные пространственные негативные примеры для укрепления устойчивости модели. Для одновременной оценки задач, требующих ссылки/связывания, семантики, знаний и рассуждений, они создают Ferret-Bench (iii). Их модель показывает лучшие результаты по сравнению с другими в различных активностях и имеет меньше объектных галлюцинаций.