Восстановление видимости ChatGPT этот подход искусственного интеллекта исследует обучение на основе связей контекста для возможности мультимодального обучения

Видимость ChatGPT восстанавливается через мультимодальное обучение на основе контекстных связей.

Языковые модели перевернули наш способ общения с компьютерами своей способностью генерировать связный и контекстно соответствующий текст. Большие языковые модели (LLM) стоят на переднем плане этого прогресса, обученные на огромных объемах текстовых данных, чтобы изучить особенности и тонкости человеческого языка. ChatGPT, пионер революции LLM, пользуется огромной популярностью среди людей разных профессий.

Благодаря своей невероятной способности LLM значительно облегчили решение различных задач. Мы используем их для краткого изложения текстов, помощи в написании электронных писем, автоматизации задач по программированию, объяснения документов и т. д. Все эти задачи раньше требовали много времени, но сейчас они выполняются всего за несколько минут.

Однако с ростом потребности в мультимодальном понимании, где модели должны обрабатывать и генерировать контент в разных модальностях, таких как текст, изображения и даже видео, возникла потребность в мультимодальных больших языковых моделях (MLLM). MLLM объединяют мощь языковых моделей с визуальным пониманием, позволяя машинам понимать и генерировать контент более всесторонним и контекстно осознанным образом.

Когда суматоха вокруг ChatGPT немного утихла, MLLM ворвались в мир искусственного интеллекта, позволяя машинам понимать и генерировать контент в разных модальностях, таких как текст и изображения. Эти модели показали выдающуюся производительность в задачах распознавания изображений, визуальной привязки и понимания инструкций. Однако эффективное обучение этих моделей остается вызовом. Самая большая проблема возникает, когда MLLM сталкивается с абсолютно новыми сценариями, где и изображение, и метка неизвестны.

Более того, MLLM теряются на середине при обработке более длинных контекстов. Эти модели сильно полагаются на начало и середину, что объясняет плато в точности с увеличением числа действий. Поэтому MLLM испытывают трудности с более длинными входами.

Пришло время познакомиться с Link-context-learning (LCL), которая решает различные проблемы в MLLM.

Демонстрационный диалог предложенного обучения с учетом контекста ссылок. Источник: https://arxiv.org/abs/2308.07891

В MLLM существуют две ключевые стратегии обучения. Multimodal Prompt Tuning (M-PT) и Multimodal Instruction Tuning (M-IT). M-PT предполагает настройку только небольшой части параметров модели, оставляя остальные замороженными. Этот подход позволяет достичь результатов, сходных с полной настройкой, минимизируя вычислительные ресурсы. С другой стороны, M-IT улучшает возможность нулевого обучения MLLM путем настройки их на наборах данных, включающих описания инструкций. Эта стратегия повышает способность модели понимать и реагировать на новые задачи без предварительного обучения. Оба эти подхода работают хорошо, но они жертвуют определенными аспектами.

Разница между обучением с учетом контекста и обучением с учетом ссылок. Источник: https://arxiv.org/abs/2308.07891

Вместо этого LCL исследует различные стратегии обучения: стратегию смешивания, двухстороннюю стратегию, двухстороннюю случайную и двухстороннюю взвешенную. Стратегия смешивания выделяется значительным повышением точности нулевого обучения и достижением впечатляющих результатов при 6-ти обучающих примерах. Однако ее производительность немного снижается при 16-ти обучающих примерах. Напротив, двухсторонняя стратегия показывает постепенное повышение точности от 2-х до 16-ти обучающих примеров, что указывает на более близкое соответствие обученному шаблону.

В отличие от традиционного контекстного обучения, LCL идет еще дальше, давая модели возможность установить соответствие между исходным и целевым объектами, что повышает ее общую производительность. Предоставляя демонстрации с причинно-следственными связями, LCL позволяет MLLM не только устанавливать аналогии, но и распознавать подлежащие причинно-следственные связи между точками данных, что позволяет им более эффективно распознавать невидимые изображения и понимать новые концепции. Набор данных ISEKAI является важным ресурсом для оценки и развития возможностей MLLM в контексте обучения на основе связей.

Кроме того, LCL представляет набор данных ISEKAI, новый и всесторонний набор данных, специально разработанный для оценки возможностей MLLM. Набор данных ISEKAI включает полностью сгенерированные изображения и вымышленные концепции. Это ставит перед MLLM задачу усвоения новых концепций из текущих бесед и сохранения этого знания для точного ответа на вопросы.

В заключение, LCL предоставляет ценные идеи о стратегиях обучения, применяемых для мультимодальных языковых моделей. Смешанная стратегия и стратегия двусторонней коммуникации предлагают разные подходы к улучшению производительности MLLM, каждый со своими сильными и слабыми сторонами. Контекстный анализ проливает свет на проблемы, с которыми MLLM сталкиваются при обработке более длинных входных данных, подчеркивая важность дальнейших исследований в этой области.