Исследователи из Университета Вашингтона и AI2 представляют TIFA автоматическую метрику оценки, которая измеряет достоверность изображения, созданного искусственным интеллектом, с использованием VQA.

Researchers from the University of Washington and AI2 introduce TIFA, an automatic evaluation metric that measures the credibility of AI-generated images using VQA.

Модели генерации текста в изображение являются одним из лучших примеров разработок в области искусственного интеллекта. Благодаря постоянному прогрессу и усилиям исследователей, эти модели проделали большой путь. Хотя в моделях генерации текста в изображение были сделаны значительные усовершенствования, эти системы обычно не могут производить изображения, которые точно соответствуют предоставленным письменным описаниям. Существующим моделям обычно требуется помощь в правильном комбинировании нескольких элементов внутри изображения, присвоении характеристик соответствующим объектам и создании визуального текста.

Исследователи пытались улучшить способность генеративных моделей справляться с этими трудностями, вводя лингвистические структуры для направления создания визуальных моделей с множеством элементов. Методы, такие как CLIPScore, который использует встраивания CLIP для оценки того, насколько созданное изображение похоже на текстовый ввод, являются ненадежной метрикой, поскольку они ограничены в своей способности точно подсчитывать и рассуждать о композиции. В качестве альтернативной стратегии используется подпись изображения, где изображение объясняется текстом, а затем сравнивается с исходным вводом. Однако этот подход не дает достаточных результатов, поскольку модели могут упустить важные аспекты изображения или сосредоточиться на несвязанных областях.

Для решения этих проблем команда исследователей из Университета Вашингтона и AI2 представила TIFA (оценка достоверности текста в изображение с помощью вопросно-ответной системы), автоматическую оценочную метрику, которая использует вопросно-ответную систему для определения насколько точно созданное изображение соответствует связанному текстовому вводу. Команда использовала языковую модель для генерации различных пар вопрос-ответ из заданного текстового ввода. Путем проверки, могут ли известные модели вопросно-ответной системы правильно отвечать на эти запросы, используя созданное изображение, можно оценить достоверность изображения.

TIFA является метрикой без ссылок, которая позволяет проводить тщательные и простые оценки качества выходных изображений. По сравнению с другими метриками оценки, TIFA показала более сильную связь с человеческими оценками. Используя эту методологию в качестве основы, команда также представила TIFA v1.0, набор данных, который включает в себя широкий спектр текстовых вводов 4K и всего 25 тысяч вопросов, разделенных на 12 разных категорий, таких как объекты и подсчет. Используя TIFA v1.0, этот набор данных использовался для всесторонней оценки существующих моделей генерации текста в изображение, выявляя их текущие недостатки и трудности.

Несмотря на успехи в областях, таких как представление цвета и материала, тесты с использованием TIFA v1.0 показали, что современные модели генерации текста в изображение все еще имеют проблемы с точным изображением количественных пространственных отношений и успешным составлением изображений с несколькими объектами. Команда поделилась своей целью создания точного критерия для оценки разработок в области синтеза текста в изображение путем представления своего набора данных. Предоставляя бесценные инсайты, они надеются направить всю будущую научную работу в направлении преодоления отмеченных ограничений и стимулирования дальнейшего развития этой технологии.

В заключение, TIFA является отличным подходом для измерения соответствия изображения и текста, сначала генерируя список вопросов с помощью LLM, а затем используя вопросно-ответную систему на изображении и вычисляя точность.