Познакомьтесь с Mini-DALLE3 Интерактивный подход к созданию изображений на основе текста с помощью больших языковых моделей

Встречайте Mini-DALLE3 интерактивный подход к созданию изображений на основе текста с использованием передовых языковых моделей

Распространение искусственного интеллекта в области генерации контента, особенно в моделях текст-изображение (T2I), открыло новую эру высококачественного, разнообразного и творческого контента, создаваемого искусственным интеллектом. Однако существует значительное ограничение в эффективной коммуникации с этими передовыми моделями T2I с использованием описаний естественного языка, что затрудняет пользователям получение захватывающих изображений без специальных навыков в инжиниринге запросов.

Современные методы в моделях T2I, такие как Stable Diffusion, показали отличные результаты в генерации высококачественных изображений на основе текстовых запросов. Однако они требуют от пользователей создания сложных запросов с композицией слов, магическими тегами и аннотациями, что снижает удобство использования этих моделей. Кроме того, существующие модели T2I все еще ограничены в понимании естественного языка, что требует от пользователей освоения определенного диалекта модели для эффективной коммуникации. Кроме того, большое количество текстовых и числовых конфигураций в конвейерах T2I, таких как взвешивание слов, отрицательные запросы и ключевые слова стиля, могут быть сложными для непрофессиональных пользователей.

В ответ на эти ограничения, команда исследователей из Китая недавно опубликовала новую работу, в которой представлен новый подход, известный как «интерактивный текст в изображение» (iT2I). Этот подход позволяет пользователям участвовать в диалогах с помощью моделей большого языка (LLM), что позволяет им итеративно указывать требования к изображению, давать обратную связь и делать предложения с использованием естественного языка.

Подход iT2I использует техники запросов и готовые модели T2I для расширения возможностей LLM в генерации и совершенствовании изображений. Он значительно повышает удобство использования за счет устранения необходимости в сложных запросах и настройках, что делает его доступным для непрофессиональных пользователей.

Основными преимуществами метода iT2I являются введение интерактивного текст-в-изображение (iT2I) в качестве инновационного подхода, позволяющего взаимодействовать в многоходовых диалогах между пользователями и агентами искусственного интеллекта для интерактивной генерации изображений. iT2I обеспечивает визуальную последовательность, обеспечивает совместимость с языковыми моделями и поддерживает различные инструкции для генерации, редактирования, выбора и совершенствования изображений. В работе также представлен подход к усовершенствованию языковых моделей для iT2I. Он выделяет его универсальность для применения в области генерации контента, дизайна и интерактивного повествования, что в конечном итоге улучшает опыт пользователя в создании изображений на основе текстовых описаний. Кроме того, предложенную технику можно легко интегрировать в существующие модели LLM.

Для оценки предложенного подхода авторы провели эксперименты для оценки его влияния на способности LLM, сравнили различные модели LLM и предоставили практические примеры iT2I для различных сценариев. Эксперименты учитывали влияние iT2I запроса на способности LLM и демонстрировали, что оно оказывает только незначительные изменения. Торговые модели LLM успешно генерировали изображения с соответствующими текстовыми ответами, в то время как модели с открытым исходным кодом проявляли различные степени успеха. Практические примеры продемонстрировали одновременную и многоходовую генерацию изображений и текстового повествования, подчеркивая возможности системы.

В заключение, в статье представлен метод Interactive Text-to-Image (iT2I), являющийся значительным прорывом в генерации контента искусственным интеллектом. Этот подход позволяет взаимодействовать в многоходовых диалогах между пользователями и агентами искусственного интеллекта, что делает генерацию изображений удобной для пользователя. iT2I улучшает языковые модели, обеспечивает согласованность изображений и поддерживает различные инструкции. Результаты экспериментов показывают минимальное влияние на производительность языковой модели, что делает iT2I многообещающим инновационным подходом в генерации контента с использованием искусственного интеллекта.