Исследователи из Китая представляют ImageBind-LLM метод настройки много-модальных инструкций для больших языковых моделей (LLMs) с использованием ImageBind

Researchers from China present ImageBind-LLM method for configuring multi-modal instructions for large language models (LLMs) using ImageBind.

Исследователи недавно заметили значительные улучшения в настройке больших языковых моделей (LLM). ChatGPT и GPT-4 – это универсальные разговорные системы, которые подчиняются командам человека на естественном языке и визуальной информации. Однако они все еще нереплицируемы из-за ограничений закрытого исходного кода. Alpaca, LLaMAAdapter и связанные усилия предлагают изменить общедоступную LLaMA в модели инструкций на естественном языке, используя самообучение на основе сгенерированных данных в ответ на это. LLaVA, LLaMA-Adapter и другие интегрируют возможности визуального понимания в LLM для генерации изображений, согласованных с инструкциями. 

Несмотря на успех текущих техник настройки инструкций, требуется больше для создания LLM для широких инструкций с множественными модальностями, таких как текст, изображения, аудио, 3D-облака точек и видео. Авторы этого исследования из Шанхайской лаборатории искусственного интеллекта, CUHK MMLab и vivo AI Lab представляют модель следования инструкциям с множественными модальностями ImageBind-LLM, которая эффективно настраивает LLaMA под руководством совместного пространства в предварительно обученном ImageBind. Как показано на рис. 1, их ImageBind-LLM (b) может реагировать на входные инструкции различных модальностей, помимо изображений, в отличие от предыдущих моделей визуальных инструкций (a), что демонстрирует многообещающую расширяемость и обобщающую способность.

Они предлагают использовать исключительно данные зрение-язык для настройки инструкций с множественными модальностями благодаря пространству вложения множественной модальности ImageBind. Для пары изображение-подпись они сначала извлекают глобальную характеристику изображения с помощью замороженного кодировщика изображений ImageBind, а затем выполняют преобразование вложения с использованием обучаемой сети связывания. Преобразованная характеристика изображения затем применяется ко всем токенам слов в слоях трансформера LLaMA, создавая визуальный контекст для генерации соответствующей текстовой подписи. В отличие от инициализации нулевого внимания в серии LLaMA-Adapter, их механизм визуального внедрения прост и взвешен обучаемым фактором гейтинга, инициализированным нулем.

Таким образом, по мере продвижения обучения, инструкционные подсказки вложений множественной модальности ImageBind могут постепенно вводиться в LLaMA без вмешательства в исходное понимание языка. Используя ImageBind для модальностей-специфичных кодировок, таких как текст, изображение, аудио и видео, ImageBind-LLM приобретает способность подчиняться инструкциям различных модальностей после базового обучения визуала и языка. Они используют предварительно обученный 3D-кодировщик в Point-Bind для кодирования входных 3D-облаков точек для инструкций в 3D-доменах. Они также предлагают подход к обучению без кэша для увеличения вложений во время вывода, чтобы устранить разрыв между обучением на изображениях и производством текста, аудио, 3D или видео, связанным с изображением.

Рисунок 1 сравнивает нашу модель с множественными модальностями по сравнению с моделями визуальных инструкций ImageBind-LLM. ImageBind-LLM выполняет универсальную настройку инструкций с множественными модальностями для изображений, текста, аудио, видео и 3D, в отличие от предыдущих усилий [1-3], которые исключительно зависят от модальности изображения.

Модель кэша включает миллионы характеристик изображения в обучающих наборах данных, полученных с помощью ImageBind, что улучшает вложения текста/аудио/3D/видео путем получения сопоставимых визуальных характеристик (Tip-Adapter). В результате ответы на многомодальные инструкции оказываются более качественными. Они тестируют возможности модели ImageBind-LLM по следованию многомодальным инструкциям в различных ситуациях и обнаруживают его последовательное улучшение.

В целом, наш ImageBind-LLM демонстрирует четыре перечисленных ниже качества.

• Инструкции с множеством модальностей. ImageBind-LLM оптимизирован для реагирования на общие входы с множественными модальностями, такими как изображения, текст, аудио, 3D-облака точек и видео, и их арифметика вложения, представленная ImageBind и Point-Bind. Это отличается от предыдущих моделей языка и визуальных инструкций.

• Настройка эффективности. Во время обучения они замораживают кодировщик изображений ImageBind и настраивают частичные веса в LLaMA с использованием эффективных подходов к параметризации, таких как LoRA и настройка смещения-нормирование. Они также обучают факторы открытия, инициализированные нулями, и дополнительную связанную сеть.

• Инициализация нулями без внимания. Они используют обучаемый метод открытия для прогрессивного инжектирования знаний, который более прямолинеен и эффективен, и включают требования мультимодальности с помощью всех токенов слов LLaMA напрямую, вместо введения дополнительных сигналов инструкции через слои внимания.

• Извлечение из кросс-модального кэша. Они предлагают модель визуального кэша на основе изображений, извлеченных с помощью ImageBind, которая выполняет извлечение для улучшения встраивания, чтобы справиться с расхождением модальности между обучением (одно изображение) и выводом (множество модальностей).