Это исследование искусственного интеллекта представляет CoDi-2 революционную многомодальную большую языковую модель, преобразующую процесс интерлейвного обработки инструкций и генерацию многомодальных выходных данных.

CoDi-2 Революционная многомодальная модель искусственного интеллекта, изменяющая процесс обработки инструкций и создания многомодальных данных

Исследователи разработали CoDi-2 Мультимодельную большую модель языка (MLLM) от UC Berkeley, Microsoft Azure AI, Zoom и UNC-Chapel Hill для решения проблемы генерации и понимания сложных мультимодальных инструкций, а также превосходства в генерации изображений, трансформации видения и редактирования аудио по субъекту. Эта модель представляет собой значительный прорыв в создании всесторонней мультимодальной основы.

CoDi-2 расширяет возможности своего предшественника, CoDi, превосходя в таких задачах, как генерация изображений по субъекту и редактирование аудио. Архитектура модели включает в себя кодировщики и декодеры для аудио- и видеовходов. При обучении используется потеря пикселей от моделей диффузии наряду с потерей токенов. CoDi-2 демонстрирует замечательные возможности нулевой или небольшой выборки в задачах, таких как адаптация стиля и генерация по субъекту.

CoDi-2 решает проблемы в мультимодальной генерации, акцентируя нулевой контроль с мелкой настройкой, инструкции, переплетенные с модальностями, и мультимодальную чат-комнату с несколькими раундами. Используя LLM в качестве своего “мозга”, CoDi-2 выстраивает модальности с языком при кодировании и генерации. Этот подход позволяет модели понимать сложные инструкции и производить согласованный мультимодальный вывод.

Архитектура CoDi-2 включает в себя кодировщики и декодеры для аудио- и видеовходов в рамках большой мультимодальной модели языка. Обучение на разнообразном наборе данных по генерации CoDi-2 использует потерю пикселей от моделей диффузии наряду с потерей токенов. Демонстрируя превосходные возможности нулевой выборки, он превосходит предыдущие модели в генерации изображений по субъекту, трансформации видения и редактировании аудио, демонстрируя конкурентные показатели и обобщение на новые невидимые задачи.

CoDi-2 проявляет обширные возможности нулевой выборки в мультимодальной генерации, превосходя в контекстном обучении, рассуждении и генерации модальности к любому и любому другому через многографический интерактивный разговор. Результаты оценки демонстрируют высокую конкурентоспособность нулевого выполнения и устойчивую обобщаемость к новым, невидимым задачам. CoDi-2 превосходит задачи работы с аудио, достигая высокой производительности при добавлении, удалении и замене элементов в аудиотреках, что подтверждается самыми низкими показателями по всем метрикам. Он подчеркивает важность контекста возраста, концептуального обучения, редактирования и точной настройки в развитии высококачественной мультимодальной генерации.

В заключение, CoDi-2 – это передовая AI-система, которая превосходит в различных задачах, включая выполнение сложных инструкций, обучение в контексте, рассуждение, чат и редактирование в разных режимах ввода-вывода. Его способность адаптироваться к различным стилям и создавать контент на основе разных тем и его умение манипулировать аудио делают его значительным прорывом в моделировании мультимодальной основы. CoDi-2 представляет собой впечатляющее исследование создания всесторонней системы, способной выполнять множество задач, даже тех, для которых она еще не была обучена.

В будущем планы для CoDi-2 направлены на улучшение его возможностей мультимодальной генерации путем совершенствования обучения в контексте, расширения способностей ведения беседы и поддержки дополнительных модальностей. Он стремится улучшить качество изображений и аудио с использованием таких техник, как модели диффузии. Будущие исследования также могут включать оценку и сравнение CoDi-2 с другими моделями для понимания ее преимуществ и ограничений.