Мультимодальное искусственное интеллекта развивается, когда ChatGPT обретает зрение с помощью GPT-4V(ision).

Мультимодальный искусственный интеллект ChatGPT получает зрение благодаря GPT-4V(ision).

В рамках постоянных усилий по приближению ИИ к человеку, модели OpenAI GPT непрерывно расширяют границы. GPT-4 теперь способен принимать запросы как текст, так и изображения.

Мультимодальность в области генеративного ИИ означает способность модели производить разнообразные выходные данные, такие как текст, изображения или звук на основе входных данных. Эти модели, обученные на конкретных данных, изучают основные закономерности для генерации аналогичных новых данных, обогащая применение ИИ.

Последние достижения в области мультимодального ИИ

Недавний значительный прорыв в этой области виден с интеграцией DALL-E 3 в ChatGPT, существенное обновление технологии текст-изображение в OpenAI. Это сочетание позволяет более плавное взаимодействие, где ChatGPT помогает создавать точные запросы для DALL-E 3, превращая идеи пользователей в яркое искусство, созданное ИИ. Таким образом, пользователи могут непосредственно взаимодействовать с DALL-E 3, что делает процесс создания ИИ-искусства гораздо более простым и удобным для пользователей.

Узнайте больше о DALL-E 3 и его интеграции с ChatGPT здесь. Это сотрудничество не только демонстрирует прогресс в области мультимодального ИИ, но и делает создание ИИ-искусства максимально простым для пользователей.

openai.com dall-e-3

https://openai.com/dall-e-3

С другой стороны, Google в июне этого года представил Med-PaLM M. Это мультимодельная генеративная модель, способная кодировать и интерпретировать разнообразные биомедицинские данные. Это было достигнуто путем донастройки модели PaLM-E, языковой модели, под медицинские области с использованием открытого бенчмарка MultiMedBench. Этот бенчмарк включает более 1 миллиона примеров из 7 типов биомедицинских данных и 14 задач, таких как медицинский вопросно-ответный и радиологический отчетный анализ.

Различные отрасли внедряют инновационные мультимодальные ИИ-инструменты для расширения бизнеса, оптимизации операций и повышения взаимодействия с клиентами. Прогресс в области голосовых, видео- и текстовых возможностей ИИ способствует росту мультимодального ИИ.

Предприятия ищут мультимодальные применения ИИ, способные пересмотреть модели и процессы бизнеса, открывая новые возможности в экосистеме генеративного ИИ, от инструментов для работы с данными до новых ИИ-приложений.

После запуска GPT-4 в марте некоторые пользователи заметили снижение качества ответов со временем, что вызвало обеспокоенность заметных разработчиков и на форумах OpenAI. Изначально отклоненной OpenAI, позднее исследование подтвердило эту проблему. Оно показало снижение точности GPT-4 с 97,6% до 2,4% с марта по июнь, что указывает на снижение качества ответов при последующих обновлениях модели.

chatgpt-ai

Тенденции поиска Google для ChatGPT (Синий) и Искусственный интеллект (Красный)

Возрождается интерес вокруг ChatGPT от Open AI. Теперь он обладает новой функцией видения – GPT-4V, позволяющей пользователям анализировать предоставленные ими изображения с помощью GPT-4. Это самая новая функция, доступная для пользователей.

Добавление анализа изображений к большим языковым моделям (LLM), таким как GPT-4, воспринимается некоторыми как большой шаг вперед в исследованиях и разработке ИИ. Этот тип мультимодальных LLM открывает новые возможности, выходящие за рамки только текста, предлагая новые интерфейсы и решая новые виды задач, создавая свежие впечатления для пользователей.

Обучение GPT-4V было завершено в 2022 году, а ранний доступ был предоставлен в марте 2023 года. Визуальная функция в GPT-4V основана на технологии GPT-4. Процесс обучения оставался прежним. Изначально модель обучалась предсказывать следующее слово в тексте с использованием массивного набора данных, включающего как текст, так и изображения из различных источников, включая интернет.

Позже он был доработан с использованием большего количества данных с использованием метода обучения с подкреплением от обратной связи человека (RLHF), чтобы генерировать выводы, которые предпочитают люди.

Механизмы видения GPT-4

Впечатляющие возможности языка зрения GPT-4, хотя и впечатляющие, имеют подлежащие методы, остающиеся на поверхности.

Для проверки этой гипотезы была введена новая модель языка и видения MiniGPT-4, использующая передовую LLM под названием Vicuna. Эта модель использует кодировщик визии с предварительно обученными компонентами для визуального восприятия, выравнивая закодированные визуальные признаки с языковой моделью Vicuna через единственный слой проекции. Архитектура MiniGPT-4 проста, но эффективна, с акцентом на выравнивание визуальных и языковых признаков для улучшения возможностей визуального общения.

MiniGPT-4

Архитектура MiniGPT-4 включает кодировщик визии с предварительно обученными ViT и Q-Former, единственный линейный слой проекции и передовую большую языковую модель Vicuna.

Также выросла тенденция использования авторегрессионных языковых моделей в задачах языка и видения, используя кросс-модальный перенос для обмена знаниями между языковыми и мультимодальными областями.

MiniGPT-4 соединяет визуальную и языковую области, выравнивая визуальную информацию из предварительно обученного кодировщика визии с передовой LLM. Модель использует Vicuna в качестве языкового декодера и следует двухступенчатому подходу обучения. Сначала она обучается на большом наборе данных изображений-текста для усвоения знаний визуального языка, а затем дообучается на более малом и качественном наборе данных для улучшения надежности и полезности генерации.

Для улучшения естественности и полезности создаваемого языка в MiniGPT-4 исследователи разработали двухэтапный процесс выравнивания, решая проблему отсутствия достаточного количества наборов данных для выравнивания языка и визии. Они собрали специализированный набор данных для этой цели.

Сначала модель генерировала подробные описания входных изображений, улучшая детали с помощью разговорного призыва, соответствующего формату языковой модели Vicuna. Этап был направлен на создание более полных описаний изображений.

Исходный призыв к описанию изображения:

###Человек: <Img><ImageFeature></Img> Подробно опишите это изображение. Скажите все, что вы видите. ###Ассистент:

Для последующей обработки данных все несоответствия или ошибки в созданных описаниях были исправлены с помощью ChatGPT, после чего была выполнена ручная проверка для обеспечения высокого качества.

Вторичный призыв для дообучения:

###Человек: <Img><ImageFeature></Img><Instruction>###Ассистент:

Это исследование открывает возможности понимания механизмов мультимодального генеративного искусственного интеллекта, такого как GPT-4, проливая свет на то, как визуальные и языковые модальности могут быть эффективно интегрированы для создания связных и контекстуально насыщенных результатов.

Исследование GPT-4 Vision

Определение происхождения изображения с помощью ChatGPT

GPT-4 Vision усиливает возможности ChatGPT анализировать изображения и определять их географическое происхождение. Эта функция переходит от взаимодействия пользователя с просто текстом к сочетанию текста и визуальных элементов, становясь полезным инструментом для любознательных людей, интересующихся различными местами через визуальные данные.

Chatgpt-vision-GPT-4

Спросить у ChatGPT, где сделано изображение памятника

Сложные математические концепции

GPT-4 Vision отличается тем, что глубоко вникает в сложные математические идеи, анализируя графические или рукописные выражения. Эта функция является полезным инструментом для лиц, стремящихся решать сложные математические задачи, что делает GPT-4 Vision значимой помощью в образовательных и академических сферах.

Chatgpt-vision-GPT-4

Спросить у ChatGPT, чтобы понять сложное математическое понятие

Преобразование рукописного ввода в коды LaTeX

Одной из замечательных возможностей GPT-4V является его способность переводить рукописные вводы в коды LaTeX. Эта функция представляет собой находку для исследователей, ученых и студентов, которым часто приходится преобразовывать рукописные математические выражения или другую техническую информацию в цифровой формат. Преобразование из рукописного в LaTeX расширяет границы документальной цифровизации и упрощает процесс технического письма.

Способность GPT-4V преобразовывать рукописный ввод в коды LaTeX

Способность GPT-4V преобразовывать рукописный ввод в коды LaTeX

Извлечение информации из таблиц

GPT-4V демонстрирует навык извлечения деталей из таблиц и разрешения связанных вопросов, что является важным аспектом анализа данных. Пользователи могут использовать GPT-4V для просмотра таблиц, сбора ключевых идей и решения вопросов, связанных с данными, что делает его мощным инструментом для аналитиков данных и других профессионалов.

GPT-4V расшифровывает детали таблиц и отвечает на связанные запросы

GPT-4V расшифровывает детали таблиц и отвечает на связанные запросы

Понимание визуальных указателей

Уникальная способность GPT-4V понимать визуальные указатели добавляет новую размерность к взаимодействию с пользователем. Путем понимания визуальных намеков GPT-4V может отвечать на запросы с более глубоким контекстуальным пониманием.

GPT-4V демонстрирует уникальную способность понимать визуальные указатели

GPT-4V демонстрирует уникальную способность понимать визуальные указатели

Создание простых псевдосайтов с помощью рисунка

Вдохновленный этим твитом, я попытался создать макет сайта unite.ai.

https://www.unite.ai/wp-content/uploads/2023/10/uthomepage.mp4

Хотя результат не совсем соответствует моему первоначальному видению, вот результат, который я получил.

HTML-фронтенд на основе видения ChatGPT

HTML-фронтенд на основе видения ChatGPT

Ограничения и недостатки GPT-4V(изии)

Для анализа GPT-4V команда Open AI провела качественные и количественные оценки. К качественным относятся внутренние тесты и экспертные обзоры, а к количественным – измерение отказов модели и точности в различных сценариях, таких как определение вредоносного контента, распознавание демографических данных, конфиденциальность, геопозиционирование, кибербезопасность и мультимодальные взломы.

Тем не менее, модель не идеальна.

В статье указываются ограничения GPT-4V, такие как неправильные выводы и отсутствие текста или символов на изображениях. Она может выдавать галлюцинации или придумывать факты. Особенно она не годится для определения опасных веществ на изображениях, часто ошибочно их идентифицируя.

В медицинской сфере GPT-4V может давать несогласованные ответы и не знать о стандартных практиках, что может привести к потенциальным ошибкам в диагнозах.

Ненадежная производительность для медицинских целей.

Ненадежная производительность для медицинских целей (источник)

Он также не понимает тонкостей определенных символов ненависти и может генерировать неуместный контент на основе визуального ввода. OpenAI не рекомендует использовать GPT-4V для критической интерпретации, особенно в медицинских или чувствительных контекстах.

Заключение

Создано с использованием Fast Stable Diffusion XL

Создано с использованием Fast Stable Diffusion XL https://huggingface.co/spaces/google/sdxl

Появление GPT-4 Vision (GPT-4V) открывает перед нами множество интересных возможностей и новых преград. Перед его внедрением было приложено много усилий для того, чтобы убедиться в том, что риски, особенно связанные с изображениями людей, были тщательно изучены и сведены к минимуму. Впечатляет то, как GPT-4V развивается, показывая большой потенциал в сложных областях, таких как медицина и наука.

Теперь на столе возникают большие вопросы. Например, должна ли эта модель быть способной идентифицировать известных людей на фотографиях? Должна ли она угадывать пол, расу или чувства человека по фотографии? И стоит ли делать особые настройки для помощи лицам с нарушениями зрения? Эти вопросы открывают ящик Пандоры в отношении конфиденциальности, справедливости и того, как ИИ должен вписываться в нашу жизнь, и об этом каждый должен иметь свое мнение.