От специалистов к универсальным помощникам глубокое погружение в эволюцию мультимодельных основных моделей в области зрения и языка
От экспертов к гибким помощникам погружение в эволюцию мультимодельных моделей в области зрения и языка
Сообщество компьютерного зрения сталкивается с широким спектром вызовов. В эпоху предварительного обучения было обсуждено множество семинарских работ, целью которых было создание всесторонней структуры для введения разнообразных визуальных инструментов. Ведущий подход в этот период заключается в предварительном обучении моделей на большом объеме данных, связанных с проблемой, а затем переносе их в различные реальные сценарии, связанные с той же типом проблемы, часто с использованием нулевых или малочисленных методов.
Недавнее исследование Microsoft подробно рассматривает историю и развитие мультимодальных фундаментальных моделей, обладающих способностями в области зрения и зрение-язык, особенно с акцентом на переход от специализированных к универсальным помощникам.
Согласно их статье, существуют три основных категории стратегий обучения:
- Новое исследование искусственного интеллекта раскрывает секреты литий-ионных аккумуляторов с помощью компьютерного зрения
- GPT-4V (Видение) OpenAI прорыв в мультимодальном фронте искусственного интеллекта
- Равноправие в машинном обучении (Часть 1)
Надзор за метками: Надзор за метками использует предварительно помеченные примеры для обучения модели. Использование ImageNet и подобных наборов данных подтвердило эффективность этого метода. Мы можем получить доступ к большим, шумным наборам данных из Интернета, изображений и меток, созданных людьми.
Также известная как “языковой надзор”, эта стратегия использует безнадзорный текстовый сигнал, чаще всего в парах изображение-слово. CLIP и ALIGN являются примерами предварительно обученных моделей для сравнения пар изображение-текст с использованием контрастной потери.
Обучение само себя только на изображениях: Эта техника полностью полагается на визуальные данные как источник сигналов для обучения модели. Моделирование маскированного изображения, контрастное обучение и обучение на основе характеристик высокого уровня – все это известные варианты.
Исследователи изучили, как несколько подходов к визуальному пониманию, такие как подписывание картинок, визуальный ответ на вопросы, предварительное обучение на уровне области для закрепления и предварительное обучение на уровне пикселей для сегментации, могут быть интегрированы для достижения наилучших результатов.
Мультимодальные фундаментальные модели
Способность понимать и интерпретировать данные в нескольких модальностях, таких как текст и изображения, выделяет мультимодальные фундаментальные модели. Они делают возможными различные задачи, которые иначе потребовали бы значительного сбора и синтеза данных. Важные мультимодальные концептуальные рамки включают следующие:
- CLIP (Контрастное предварительное обучение язык-изображение) – новаторская техника для открытия общего пространства вложения изображений и текста. Она способна на такие вещи, как поиск изображений по тексту и категоризация без обучения.
- BEiT (BERT в области зрения) адаптирует технику моделирования маскированного изображения BERT для использования в визуальной области. Токены на маскированных изображениях могут быть предсказаны, чтобы конвертеры изображений могли перейти к другим задачам.
- CoCa (Контрастное и подписывание предварительного обучения) объединяет контрастное обучение с потерей подписывания для предварительного обучения кодировщика изображения. Теперь стало возможным наблюдать завершение мультимодальной задачи благодаря системе подписывания изображений в стиле перефразирования.
- UniCL (Унифицированное контрастное обучение) позволяет единое контрастное предварительное обучение на парах изображение-текст и изображение-метка путем расширения контрастного обучения CLIP на данные с метками изображения.
- MVP (Маскированное моделирование изображений визуального предварительного обучения) – это метод предварительного обучения визуальных трансформаторов, использующих маскированные изображения и высокоуровневые цели функций.
- Чтобы повысить точность MIM, EVA (Использование соответствия между зрительным и текстовым материалом) использует характеристики изображений из моделей, таких как CLIP, в качестве целевых характеристик.
- BEiTv2 улучшает BEiT, включая потерю самодистилляции в стиле DINO для продвижения приобретения глобальных визуальных представлений при обучении.
Значительную пользу от улучшенной интерпретации моделей и обработки данных получили приложения компьютерного зрения и обработки естественного языка благодаря этим мультимодальным фундаментальным моделям.
Их исследование также рассматривает раздел “Генерация изображений”, открывая, что модели генерации текста в изображения стали основой синтеза изображений. Эти модели были успешно расширены, чтобы позволить более точное управление и настройку пользователем. Доступность и генерация огромного объема данных, связанных с проблемой, являются важными факторами при реализации этих мультимодальных фундаментальных моделей.
Введение в производство T2I T2I-generation modeling (генерация из текста в изображение) пытается предоставить визуальную информацию, соответствующую текстовым описаниям. Эти модели часто обучаются на парах изображений и текста, где тексты служат входными условиями, а фотографии – желаемыми результатами.
Модель T2I поясняется на примерах из Stable Diffusion (SD) во всей книге. SD – это популярная модель T2I с открытым исходным кодом благодаря ее слиянию изображений и текста на основе перекрестной внимания и методу создания на основе диффузии.
Деназированная единая нейронная сеть (U-Net), текстовый кодировщик и вариационный автоэнкодер изображений (VAE) – это три основных компонента SD. VAE кодирует изображения, TEN кодирует текстовые условия, а Деназирующая U-Net предсказывает шум в скрытом пространстве для генерации новых изображений.
Разрабатывается улучшение пространственного контроля в генерации T2I-изображений, и один из подходов заключается в возможности ввода большего количества пространственных условий вместе с текстом, таких как регионально ориентированные текстовые описания или плотные пространственные требования, такие как маски сегментации и ключевые точки. Исследуется, как модели T2I, такие как ControlNet, могут использовать сложные ограничения, такие как маски сегментации и карты границ, для управления процессом создания изображений.
Представлены последние достижения в моделях редактирования на основе текста; эти модели могут изменять фотографии в соответствии с текстовыми инструкциями, устраняя необходимость в создании пользовательских масок. Модели T2I могут лучше следовать текстовым подсказкам благодаря настройке выравнивания, аналогичной обучению языковых моделей для повышения качества генерации текста. Рассматриваются возможные решения, включая те, которые основаны на обучении с подкреплением.
В будущем не будет необходимости в отдельных моделях изображений и текста благодаря растущей популярности моделей T2I с интегрированными решениями выравнивания, как упоминается в тексте. В этом исследовании команда предложила унифицированный интерфейс ввода для моделей T2I, который позволит одновременно вводить изображения и текст для поддержки задач таких как пространственный контроль, редактирование и настройка концепции.
Выравнивание с человеческим намерением
Для обеспечения того, чтобы модели T2I производили изображения, которые хорошо соответствуют человеческому намерению, исследование подчеркивает необходимость нацеливать потери и награды на выравнивание, аналогично тому, как языковые модели настраиваются для конкретных задач. В исследовании исследуются потенциальные преимущества замкнутой интеграции понимания контента и генерации в контексте мультимодальных моделей, которые сочетают задачи понимания и генерации. Единые модели зрения создаются на разных уровнях и для различных деятельностей с использованием принципа единого моделирования.
Открытые, унифицированные и интерактивные модели зрения являются текущим фокусом научного сообщества в области зрения. Однако существуют некоторые фундаментальные разрывы между языковой и визуальной сферами.
- Зрение отличается от языка тем, что оно воспринимает мир вокруг нас с помощью необработанных сигналов. Создание компактных “токенов” из необработанных данных включает сложные процессы токенизации. Это легко осуществляется в языковой сфере с помощью нескольких установленных эвристических токенизаторов.
- В отличие от языка, визуальные данные не являются помеченными, что делает сложным передачу смысла или экспертизы. Семантическое или геопространственное аннотирование визуального контента всегда связано с большим объемом работы.
- Существует большое разнообразие визуальных данных и деятельностей, чем у вербальных данных.
- Наконец, стоимость архивирования визуальных данных намного выше, чем данные на других языках. По сравнению с GPT-3, для набора данных ImageNet, включающего 1,3 миллиона изображений, потребуется 45 ТБ тренировочных данных, что дороже всего на несколько сотен гигабайт. Что касается видеоданных, стоимость хранения близка к стоимости обучающего корпуса GPT-3.
Различия между двумя подходами обсуждаются в последующих главах. Применение компьютерного зрения в реальном мире приводит к тому, что существующие визуальные данные, используемые для обучения моделей, не могут точно представить всю разнообразие реального мира. Несмотря на попытки создать модели зрения для открытых сценариев, по-прежнему существуют значительные проблемы при работе с новыми или редкими событиями.
Согласно исследователям, требуются некоторые законы, масштабирующиеся вместе с развитием зрения. Ранние исследования показали, что производительность больших языковых моделей постоянно улучшается с увеличением размера модели, масштаба данных и вычислительных возможностей. На больших масштабах LLM обнаруживают некоторые замечательные новые характеристики. Однако до сих пор непонятно, как лучше разрабатывать модели зрения и использовать их всплывающие свойства. Существуют модели, которые используют либо визуальный, либо лингвистический вход. В последние годы разрыв между визуальной и вербальной сферами стал все меньше и меньше. Однако, учитывая внутренние различия между зрением и языком, стоит задаться вопросом, достаточно ли сочетания моделей среднего зрения и LLM для решения большинства проблем. Тем не менее, создание полностью автономной системы зрения ИИ на уровне человека еще находится в далеком будущем. Используя в качестве примеров LLaVA и MiniGPT-4, исследователи изучили основы и мощные возможности LMM, исследовали настройку инструкций в LLM и показали, как создать прототип с использованием открытых ресурсов.
Исследователи надеются, что сообщество будет продолжать работать над прототипами новых функциональностей и методик оценки для снижения вычислительных преград, сделав большие модели более доступными, а также продолжать сосредотачиваться на успешном масштабировании и изучении новых всплывающих свойств.