Введение в NExT-GPT многомодельная крупногабаритная языковая модель Any-to-Any

Знакомство с многомодельной крупногабаритной языковой моделью Any-to-Any NExT-GPT

 

В последние годы исследования в области генеративного искусственного интеллекта претерпели изменения, которые изменили нашу работу. От разработки контента, планирования работы и поиска ответов до создания произведений искусства – все это теперь возможно с помощью генеративного ИИ. Однако каждая модель обычно предназначена для определенного набора задач, например, GPT для текста-в-текст, стабильная диффузия для текста-в-изображение и другие.

Модель, способная выполнять несколько задач, называется мультимодальной моделью. Многие последние исследования ведутся в мультимодальном направлении, так как оно показало свою полезность во многих условиях. Именно об этом одном из захватывающих исследований в области мультимодальности, которое нужно знать всем, говорит статья о NExT-GPT.

NExT-GPT – это мультимодальная модель, которая может преобразовывать все что угодно во что угодно. Так как она работает? Давайте рассмотрим ее подробнее.

 

Введение в NExT-GPT

 

NExT-GPT – это LLM-модель, которая может работать с четырьмя различными типами входных и выходных данных: текстом, изображениями, видео и аудио. Исследование было начато исследовательской группой, называемой NExT++ Национального университета Сингапура.

Общее представление модели NExT-GPT показано на приведенном ниже изображении.

  

Модель NExT-GPT состоит из трех частей:

  1. Создание кодировщиков для входных данных разных модальностей и преобразование их в данные, принимаемые LLM в виде входа, похожего на язык,
  2. Использование открытого LLM в качестве основы для обработки входных данных с целью семантического понимания и логического рассуждения с дополнительным сигналом уникальной модальности,
  3. Предоставление мультимодального сигнала для различных кодировщиков и создание результатов для соответствующих модальностей.

Пример процесса вывода с использованием модели NExT-GPT показан на изображении ниже.

  

На изображении выше мы видим, что в зависимости от задач, которые нам необходимо выполнить, кодировщик и декодировщик переключаются на соответствующие модальности. Этот процесс возможен только благодаря концепции, называемой настройкой инструкций переключения модальностей, чтобы модель соответствовала намерениям пользователя.

Исследователи экспериментировали с различными комбинациями модальностей. Общая производительность NExT-GPT может быть обобщена на графике, приведенном ниже.

  

Наилучшая производительность NExT-GPT достигается при использовании входных данных в формате текста и аудио для создания изображений, за которой следует использование входных данных текста, аудио и изображений для получения результатов в виде изображений. Наименее эффективным является использование входных данных текста и видео для получения видеорезультата.

Пример возможностей NExT-GPT показан на изображении ниже.

  

Представленные результаты показывают, что взаимодействие с NExT-GPT может порождать аудио, текст и изображения, соответствующие намерениям пользователя. Это показывает, что NExT-GPT довольно хорошо справляется со своей задачей и является довольно надежным.

Еще один пример NExT-GPT показан на изображении ниже.

  

Выше представленный пример демонстрирует, как NExT-GPT может работать с двумя видами модальностей для создания текста и аудио-результата. Это показывает, насколько гибкой является модель.

Если вы хотите попробовать эту модель, вы можете установить модель и ее окружение со страницы их GitHub. Кроме того, вы можете попробовать демонстрацию на следующей странице.

 

Вывод

 

NExT-GPT – это мультимодальная модель, которая принимает входные данные и производит вывод в тексте, изображении, звуке и видео. Эта модель работает, используя особый кодировщик для модальностей и переключаясь на соответствующие модальности в зависимости от намерений пользователя. Результаты эксперимента показывают хороший результат и обещающую работу, которая может быть использована во многих приложениях.

[Корнелиус Юдха Виджая](https://www.linkedin.com/in/cornellius-yudha-wijaya/) – помощник руководителя по науке о данных и автор. Работая на полную ставку в Allianz Indonesia, он с удовольствием делится советами по Python и обработке данных через социальные сети и печатные средства.