Microsoft Researchers предлагают DeepSpeed-VisualChat прорыв в масштабируемом обучении многомодальной языковой модели

Microsoft Researchers представляют прорыв в масштабированном обучении многомодальной языковой модели с помощью DeepSpeed-VisualChat

Большие языковые модели – это сложные искусственные интеллектуальные системы, созданные для понимания и создания языка, сходного с человеческим, в масштабах большого объема. Эти модели полезны в различных приложениях, таких как вопросно-ответная система, генерация контента и интерактивный диалог. Их полезность основана на длительном процессе обучения, в ходе которого они анализируют и понимают огромные объемы онлайн-данных.

Эти модели являются передовыми инструментами, которые улучшают взаимодействие между человеком и компьютером, способствуя более сложному и эффективному использованию языка в различных контекстах.

Помимо чтения и написания текста, ведутся исследования по обучению моделей пониманию и использованию различных форм информации, таких как звуки и изображения. Продвижение в области мультимодальных возможностей весьма интересно и обещает большие успехи. Современные большие языковые модели (LLM), такие как GPT, показали исключительную производительность в широком спектре задач, связанных с текстом. Эти модели становятся очень хорошими в различных интерактивных задачах с помощью дополнительных методов обучения, таких как обучение с подкреплением с помощью привлечения человека или обучение с подкреплением в режиме реального времени. Чтобы достичь уровня экспертизы, характерного для человеческих специалистов, особенно в задачах, связанных с кодированием, количественным мышлением, математическими рассуждениями и участием в разговорах, между агентами искусственного интеллекта необходимо совершенствовать модели с помощью этих методов обучения.

Мы стремимся научить эти модели понимать и создавать материал в различных форматах, включая изображения, звуки и видео. Применяются методы, включая согласование признаков и модификацию модели. Одной из таких инициатив являются большие модели видения и языка (LVLM). Однако из-за проблем с обучением и доступностью данных текущие модели испытывают трудности при решении сложных сценариев, таких как многораундовые диалоги с несколькими изображениями, и имеют ограниченные возможности адаптации и масштабируемости в различных контекстах взаимодействия.

Исследователи из компании Microsoft назвали свою разработку DeepSpeed-VisualChat. Эта платформа усиливает LLM, включая мультимодальные возможности, и обладает выдающейся масштабируемостью даже при размере языковой модели в 70 миллиардов параметров. Она позволяет проводить динамические чаты с многораундовыми и многопроходными диалогами, безупречно соединяя текстовые и графические вводы. Для увеличения адаптивности и отзывчивости мультимодальных моделей платформа использует Multi-Modal Causal Attention (MMCA), метод, который отдельно оценивает веса внимания по нескольким модальностям. Команда использовала подходы смешивания данных, чтобы преодолеть проблемы с доступными наборами данных и создать богатую и разнообразную среду обучения.

DeepSpeed-VisualChat отличается выдающейся масштабируемостью, которая была обеспечена интеграцией платформы DeepSpeed. Эта платформа обладает исключительной масштабируемостью и позволяет расширять границы возможностей моделей мультимодального диалога, используя визуальный кодер с 2 миллиардами параметров и языковой декодер с 70 миллиардами параметров из LLaMA-2.

Исследователи подчеркивают, что архитектура DeepSpeed-VisualChat основана на MiniGPT4. В этой структуре изображение кодируется с использованием предобученного визуального кодировщика, а затем выравнивается с выходом скрытого измерения слоя встраивания текста с помощью линейного слоя. Эти входы передаются в языковые модели, такие как LLaMA2, поддерживаемые инновационным механизмом Multi-Modal Causal Attention (MMCA). Важно отметить, что во время этой процедуры и языковая модель, и визуальный кодировщик остаются замороженными.

По словам исследователей, классическое взаимное внимание (CrA) открывает новые возможности и проблемы, но механизм многомодального причинного внимания (MMCA) идет другим путем. Для токенов текста и изображений MMCA использует отдельные матрицы весов внимания, так что визуальные токены сфокусированы на себе, а текстуальные – на токенах, предшествующих им.

DeepSpeed-VisualChat, согласно результатам реальных испытаний, более масштабируем, чем предыдущие модели. Он повышает адаптацию в различных сценариях взаимодействия без увеличения сложности или затрат на обучение. Благодаря масштабированию до 70 миллиардов параметров языковой модели, он обладает особенной масштабируемостью. Это достижение является прочной основой для дальнейшего развития моделей мультимодального языка и является значительным шагом вперед.