Первый универсальный визуальный и языковой искусственный интеллект LLaVA

LLaVA - первый универсальный визуальный и языковой искусственный интеллект

LLaVA: Связующее звено между визуальным и языковым искусственным интеллектом с помощью GPT-4

Оригинально опубликовано на сайте louisbouchard.ai, прочитайте его за 2 дня до моего блога!

Смотрите видео!

GPT-4 мощный, но вы знали, что некоторые ИИ полностью построены на нем? Да, GPT-4 настолько хорош, что его можно использовать для генерации достаточно хороших данных для обучения других моделей ИИ. И не просто моделей, а лучших моделей, чем сам GPT-4! Лю и др. только что использовали GPT-4 для создания универсальной модели языкового видения под названием LLaVA, первой универсальной модели, которая понимает и следует визуальным и языковым инструкциям. По сути, модель, которая почти идеально понимает текст и изображения одновременно. Так что вы можете спрашивать ее о любом изображении. Поскольку GPT-4 пока не способен видеть изображения, но невероятно хорош с текстом, мы можем отправить ему подписи к нашим изображениям и попросить его сгенерировать различные типы выходных данных, такие как вопросы для Q&A, более подробное описание изображения или даже вопросы и ответы на рассуждения об изображении. Именно это и сделали авторы. Они присвоили роль и личность модели GPT-4 и попросили ее сгенерировать различные типы данных, основанные на первоначальной подписи для каждого изображения.

“Пример для иллюстрации данных, следующих по инструкции. В верхнем блоке показаны контексты, такие как подписи и рамки, используемые для подсказки GPT, а в нижнем блоке показаны три типа ответов. Обратите внимание, что визуальное изображение не используется для подсказки GPT, мы показываем его здесь только в качестве ссылки.” Изображение и подпись из статьи.

Вот как выглядели инструкции, данная GPT-4 в случае LLaVA, чтобы создать наилучший возможный набор данных, позволяющий языковой модели наиболее глубоко понять изображение. От просьбы описание изображения к краткому описанию, и даже до исчерпывающего описания или тщательного анализа.

Список инструкций для краткого описания изображения. Изображение из статьи.

Эти пользовательские подсказки и ответы, сгенерированные GPT-4, заполнят хороший набор данных, полный различных вопросов и ответов и описаний наших изображений, позволяя нам обучать наш мультимодальный ИИ, то есть ИИ, который может обрабатывать изображения и текст, а затем отправлять…