Это исследование искусственного интеллекта представляет CoDi-2 революционную многомодальную большую языковую модель, преобразующую процесс интерлейвного обработки инструкций и генерацию многомодальных выходных данных.

CoDi-2 Революционная многомодальная модель искусственного интеллекта, изменяющая процесс обработки инструкций и создания многомодальных данных

Исследователи разработали CoDi-2 Мультимодельную большую модель языка (MLLM) от UC Berkeley, Microsoft Azure AI, Zoom и UNC-Chapel Hill для решения проблемы генерации и понимания сложных мультимодальных инструкций, а также превосходства в генерации изображений, трансформации видения и редактирования аудио по субъекту. Эта модель представляет собой значительный прорыв в создании всесторонней мультимодальной основы.

CoDi-2 расширяет возможности своего предшественника, CoDi, превосходя в таких задачах, как генерация изображений по субъекту и редактирование аудио. Архитектура модели включает в себя кодировщики и декодеры для аудио- и видеовходов. При обучении используется потеря пикселей от моделей диффузии наряду с потерей токенов. CoDi-2 демонстрирует замечательные возможности нулевой или небольшой выборки в задачах, таких как адаптация стиля и генерация по субъекту.

CoDi-2 решает проблемы в мультимодальной генерации, акцентируя нулевой контроль с мелкой настройкой, инструкции, переплетенные с модальностями, и мультимодальную чат-комнату с несколькими раундами. Используя LLM в качестве своего “мозга”, CoDi-2 выстраивает модальности с языком при кодировании и генерации. Этот подход позволяет модели понимать сложные инструкции и производить согласованный мультимодальный вывод.

Архитектура CoDi-2 включает в себя кодировщики и декодеры для аудио- и видеовходов в рамках большой мультимодальной модели языка. Обучение на разнообразном наборе данных по генерации CoDi-2 использует потерю пикселей от моделей диффузии наряду с потерей токенов. Демонстрируя превосходные возможности нулевой выборки, он превосходит предыдущие модели в генерации изображений по субъекту, трансформации видения и редактировании аудио, демонстрируя конкурентные показатели и обобщение на новые невидимые задачи.

CoDi-2 проявляет обширные возможности нулевой выборки в мультимодальной генерации, превосходя в контекстном обучении, рассуждении и генерации модальности к любому и любому другому через многографический интерактивный разговор. Результаты оценки демонстрируют высокую конкурентоспособность нулевого выполнения и устойчивую обобщаемость к новым, невидимым задачам. CoDi-2 превосходит задачи работы с аудио, достигая высокой производительности при добавлении, удалении и замене элементов в аудиотреках, что подтверждается самыми низкими показателями по всем метрикам. Он подчеркивает важность контекста возраста, концептуального обучения, редактирования и точной настройки в развитии высококачественной мультимодальной генерации.

В заключение, CoDi-2 – это передовая AI-система, которая превосходит в различных задачах, включая выполнение сложных инструкций, обучение в контексте, рассуждение, чат и редактирование в разных режимах ввода-вывода. Его способность адаптироваться к различным стилям и создавать контент на основе разных тем и его умение манипулировать аудио делают его значительным прорывом в моделировании мультимодальной основы. CoDi-2 представляет собой впечатляющее исследование создания всесторонней системы, способной выполнять множество задач, даже тех, для которых она еще не была обучена.

В будущем планы для CoDi-2 направлены на улучшение его возможностей мультимодальной генерации путем совершенствования обучения в контексте, расширения способностей ведения беседы и поддержки дополнительных модальностей. Он стремится улучшить качество изображений и аудио с использованием таких техник, как модели диффузии. Будущие исследования также могут включать оценку и сравнение CoDi-2 с другими моделями для понимания ее преимуществ и ограничений.

AI Shorts,Applications,Artificial Intelligence,Computer Vision,Editors Pick

Повышение эффективности интеллектуальных документальных помощников на основе RAG с использованием извлечения сущностей, SQL-запросов и агентов с Amazon Bedrock.

Исследователи из MIT и Adobe представляют Distribution Matching Distillation (DMD) метод искусственного интеллекта для превращения модели диффузии в генератор изображений одним шагом.

CoDi-2 Революционная многомодальная модель искусственного интеллекта, изменяющая процесс обработки инструкций и создания многомодальных данных

Повышение эффективности интеллектуальных документальных помощников на основе RAG с использованием извлечения сущностей, SQL-запросов и агентов с Amazon Bedrock.

Исследователи из MIT и Adobe представляют Distribution Matching Distillation (DMD) метод искусственного интеллекта для превращения модели диффузии в генератор изображений одним шагом.

Исследователи Max Planck представляют PoseG...

Это исследование искусственного интеллекта ...

Исследователи Университета Женевы исследуют...

Исследователи из Шанхайской лаборатории иск...

Исследователи научили алгоритм ‘вкусу

Исследователи КМУ представляют Diffusion-TT...

Исследования в области ИИ