Потерянный в DALL-E 3 перевод

Затерянный в DALL-E 3 перевод

Генерация изображений ИИ на разных языках приводит к разным результатам

Изображения, сгенерированные с использованием DALL-E 3 на шести языках по запросу «изображение человека». Иллюстрация создана автором.

Введение

OpenAI недавно запустила DALL-E 3, самую последнюю модель генерации изображений ИИ в их серии.

Однако, как показывает недавнее освещение СМИ и исследования, эти модели ИИ обладают предубеждениями и стереотипами. Например, модели генерации изображений ИИ, такие как Stable Diffusion и Midjourney, часто подчеркивают существующие стереотипы о расе, поле и национальной идентичности.

Однако большая часть этих исследований в основном тестирует модели с использованием английских запросов. Возникает вопрос: как эти модели будут реагировать на запросы на других языках?

В этой статье я исследую поведение DALL-E 3 с использованием различных языковых запросов. Опираясь на темы моих предыдущих работ, я предлагаю мультиязычную перспективу на новейшую модель генерации изображений ИИ.

Как работает DALL-E 3: Преобразования запросов

В отличие от предыдущих моделей генерации изображений ИИ, эта новейшая версия модели DALL-E не генерирует прямо то, что вы вводите. Вместо этого DALL-E 3 использует автоматические преобразования запросов, то есть преобразует ваш исходный запрос в другой, более описательный вариант.

Пример преобразования запроса из документа OpenAI, детализирующего процесс улучшения подписей: Улучшение генерации изображений с помощью лучших подписей. Иллюстрация создана автором.

Согласно Карте системы DALL-E 3, это было сделано по нескольким причинам:

  • Улучшение описаний для более подробного описания
  • Удаление имен публичных лиц
  • Уточнение более разнообразных описаний сгенерированных людей (например, ранее сгенерированные люди чаще были белыми, молодыми и женского пола)

Таким образом, процесс генерации изображения выглядит примерно следующим образом:

  1. Вы вводите ваш запрос в DALL-E 3 (доступно через ChatGPT Plus)
  2. Ваш запрос преобразуется в четыре разных преобразованных запроса
  3. DALL-E 3 генерирует изображение на основе каждого из преобразованных запросов