Введение в NExT-GPT многомодельная крупногабаритная языковая модель Any-to-Any
Знакомство с многомодельной крупногабаритной языковой моделью Any-to-Any NExT-GPT
В последние годы исследования в области генеративного искусственного интеллекта претерпели изменения, которые изменили нашу работу. От разработки контента, планирования работы и поиска ответов до создания произведений искусства – все это теперь возможно с помощью генеративного ИИ. Однако каждая модель обычно предназначена для определенного набора задач, например, GPT для текста-в-текст, стабильная диффузия для текста-в-изображение и другие.
Модель, способная выполнять несколько задач, называется мультимодальной моделью. Многие последние исследования ведутся в мультимодальном направлении, так как оно показало свою полезность во многих условиях. Именно об этом одном из захватывающих исследований в области мультимодальности, которое нужно знать всем, говорит статья о NExT-GPT.
NExT-GPT – это мультимодальная модель, которая может преобразовывать все что угодно во что угодно. Так как она работает? Давайте рассмотрим ее подробнее.
- Познакомьтесь с ULTRA предварительно обученной моделью основы для логического вывода на знаниях графа, которая работает с любым графом и превосходит модели SOTA с учителем на 50+ графиках.
- Насколько эффективны самообъяснения от больших языковых моделей, таких как ChatGPT, в анализе настроений? Глубокая погружение в производительность, стоимость и интерпретируемость
- Разблокировка систематической композициональности в нейронных сетях прорыв с помощью метаобучения для подхода композициональности (MLC)
Введение в NExT-GPT
NExT-GPT – это LLM-модель, которая может работать с четырьмя различными типами входных и выходных данных: текстом, изображениями, видео и аудио. Исследование было начато исследовательской группой, называемой NExT++ Национального университета Сингапура.
Общее представление модели NExT-GPT показано на приведенном ниже изображении.
Модель NExT-GPT состоит из трех частей:
- Создание кодировщиков для входных данных разных модальностей и преобразование их в данные, принимаемые LLM в виде входа, похожего на язык,
- Использование открытого LLM в качестве основы для обработки входных данных с целью семантического понимания и логического рассуждения с дополнительным сигналом уникальной модальности,
- Предоставление мультимодального сигнала для различных кодировщиков и создание результатов для соответствующих модальностей.
Пример процесса вывода с использованием модели NExT-GPT показан на изображении ниже.
На изображении выше мы видим, что в зависимости от задач, которые нам необходимо выполнить, кодировщик и декодировщик переключаются на соответствующие модальности. Этот процесс возможен только благодаря концепции, называемой настройкой инструкций переключения модальностей, чтобы модель соответствовала намерениям пользователя.
Исследователи экспериментировали с различными комбинациями модальностей. Общая производительность NExT-GPT может быть обобщена на графике, приведенном ниже.
Наилучшая производительность NExT-GPT достигается при использовании входных данных в формате текста и аудио для создания изображений, за которой следует использование входных данных текста, аудио и изображений для получения результатов в виде изображений. Наименее эффективным является использование входных данных текста и видео для получения видеорезультата.
Пример возможностей NExT-GPT показан на изображении ниже.
Представленные результаты показывают, что взаимодействие с NExT-GPT может порождать аудио, текст и изображения, соответствующие намерениям пользователя. Это показывает, что NExT-GPT довольно хорошо справляется со своей задачей и является довольно надежным.
Еще один пример NExT-GPT показан на изображении ниже.
Выше представленный пример демонстрирует, как NExT-GPT может работать с двумя видами модальностей для создания текста и аудио-результата. Это показывает, насколько гибкой является модель.
Если вы хотите попробовать эту модель, вы можете установить модель и ее окружение со страницы их GitHub. Кроме того, вы можете попробовать демонстрацию на следующей странице.
Вывод
NExT-GPT – это мультимодальная модель, которая принимает входные данные и производит вывод в тексте, изображении, звуке и видео. Эта модель работает, используя особый кодировщик для модальностей и переключаясь на соответствующие модальности в зависимости от намерений пользователя. Результаты эксперимента показывают хороший результат и обещающую работу, которая может быть использована во многих приложениях.
[Корнелиус Юдха Виджая](https://www.linkedin.com/in/cornellius-yudha-wijaya/) – помощник руководителя по науке о данных и автор. Работая на полную ставку в Allianz Indonesia, он с удовольствием делится советами по Python и обработке данных через социальные сети и печатные средства.