Первый универсальный визуальный и языковой искусственный интеллект LLaVA
LLaVA - первый универсальный визуальный и языковой искусственный интеллект
LLaVA: Связующее звено между визуальным и языковым искусственным интеллектом с помощью GPT-4
Оригинально опубликовано на сайте louisbouchard.ai, прочитайте его за 2 дня до моего блога!
Смотрите видео!
GPT-4 мощный, но вы знали, что некоторые ИИ полностью построены на нем? Да, GPT-4 настолько хорош, что его можно использовать для генерации достаточно хороших данных для обучения других моделей ИИ. И не просто моделей, а лучших моделей, чем сам GPT-4! Лю и др. только что использовали GPT-4 для создания универсальной модели языкового видения под названием LLaVA, первой универсальной модели, которая понимает и следует визуальным и языковым инструкциям. По сути, модель, которая почти идеально понимает текст и изображения одновременно. Так что вы можете спрашивать ее о любом изображении. Поскольку GPT-4 пока не способен видеть изображения, но невероятно хорош с текстом, мы можем отправить ему подписи к нашим изображениям и попросить его сгенерировать различные типы выходных данных, такие как вопросы для Q&A, более подробное описание изображения или даже вопросы и ответы на рассуждения об изображении. Именно это и сделали авторы. Они присвоили роль и личность модели GPT-4 и попросили ее сгенерировать различные типы данных, основанные на первоначальной подписи для каждого изображения.
![“Пример для иллюстрации данных, следующих по инструкции. В верхнем блоке показаны контексты, такие как подписи и рамки, используемые для подсказки GPT, а в нижнем блоке показаны три типа ответов. Обратите внимание, что визуальное изображение не используется для подсказки GPT, мы показываем его здесь только в качестве ссылки.” Изображение и подпись из статьи.](https://miro.medium.com/v2/resize:fit:640/format:webp/1*jryKDgAHU_j4NcBq5nqrmA.png)
Вот как выглядели инструкции, данная GPT-4 в случае LLaVA, чтобы создать наилучший возможный набор данных, позволяющий языковой модели наиболее глубоко понять изображение. От просьбы описание изображения к краткому описанию, и даже до исчерпывающего описания или тщательного анализа.
![Список инструкций для краткого описания изображения. Изображение из статьи.](https://miro.medium.com/v2/resize:fit:640/format:webp/1*g4xPYGzHsRIh7nh7ugUwfw.png)
Эти пользовательские подсказки и ответы, сгенерированные GPT-4, заполнят хороший набор данных, полный различных вопросов и ответов и описаний наших изображений, позволяя нам обучать наш мультимодальный ИИ, то есть ИИ, который может обрабатывать изображения и текст, а затем отправлять…
- Постройте свою первую автокоррекцию без машинного обучения
- Эффективное глубокое обучение освобождение мощности сжатия модели
- Эта статья по искусственному интеллекту представляет показатель оценки роли сложности кода в улучшении рассуждений больших языковых моделей — Complexity-Impacted Reasoning Score (CIRS).