Знакомьтесь с NExT-GPT Многофункциональной моделью большого языка Any-to-Any с поддержкой мультимодальности от начала до конца (MM-LLM).

Meet NExT-GPT, a versatile language model with multimodality support (MM-LLM).

Мультимодальные LLM могут улучшить взаимодействие человека с компьютером, позволяя более естественное и интуитивное общение между пользователями и системами искусственного интеллекта с помощью голоса, текста и визуальных входов. Это может привести к более контекстно-релевантным и всесторонним ответам в приложениях, таких как чат-боты, виртуальные ассистенты и системы рекомендаций контента. Они строятся на основе традиционных одномодальных языковых моделей, таких как GPT-3, с добавлением дополнительных возможностей для работы с разными типами данных.

Однако мультимодальные LLM могут требовать большого объема данных для хорошей производительности, что делает их менее эффективными в обращении с образцами по сравнению с другими моделями искусственного интеллекта. Выравнивание данных разных модальностей во время обучения может быть сложной задачей. Из-за отсутствия полной энд-ту-энд обучения в передаче ошибок, понимание контента и возможности мультимодальной генерации могут быть очень ограниченными. Поскольку передача информации между разными модулями полностью основана на дискретных текстах, созданных LLM, шум и ошибки неизбежны. Обеспечение правильной синхронизации информации из каждой модальности является важным для практического обучения.

Для решения этих проблем исследователи из NeXT++, школы компьютерных наук (NUS) разработали NexT-GPT. Это мультимодальная LLM, предназначенная для обработки входных и выходных данных в любой комбинации текста, изображений, видео и аудио. Она позволяет кодировщикам кодировать входные данные различных модальностей, которые затем проецируются на представления LLM.

Их метод заключается в модификации существующей открытой LLM как основы для обработки входной информации. После проекции, произведенные мультимодальные сигналы со специфическими инструкциями направляются в разные кодировщики, и, наконец, контент генерируется в соответствующих модальностях. Обучение модели с нуля экономически эффективно, поэтому они используют существующие предварительно обученные высокопроизводительные кодировщики и декодеры, такие как Q-Former, ImageBind и передовые модели латентной диффузии.

Они представили легкую технику обучения выравнивания, при которой производится выравнивание, ориентированное на LLM, на стадии кодирования, и выравнивание, следующее инструкциям, на стадии декодирования, что требует минимальных изменений параметров для эффективного семантического выравнивания. Они также вводят настройку инструкций переключения модальностей для предоставления своей любой-к-любой MM-LLM возможностей на уровне человека. Это позволит сократить разрыв между пространством признаков разных модальностей и обеспечит плавное понимание семантики других входов для выполнения выравнивающего обучения для NExT-GPT.

Настройка инструкций переключения модальностей (MosIT) поддерживает сложное кросс-модальное понимание и рассуждение, а также обеспечивает сложную генерацию контента с использованием нескольких модальностей. Они также создали высококачественный набор данных, включающий широкий спектр мультимодальных входов и выходов, предлагая необходимую сложность и изменчивость для обучения MM-LLM обрабатывать разнообразное взаимодействие с пользователем и точно предоставлять желаемые ответы.

В итоге, их исследование демонстрирует потенциал любой-к-любой MMLLM в устранении разрыва между различными модальностями и открытии пути к более гуманоидным системам искусственного интеллекта в будущем.