Исследователи из Стэнфордского университета представляют новый фреймворк искусственного интеллекта, направленный на улучшение интерпретируемости и генеративных возможностей текущих моделей для различных визуальных концепций.

Новый фреймворк искусственного интеллекта от исследователей из Стэнфордского университета улучшение интерпретируемости и генеративные возможности для визуальных концепций.

Для разнообразных визуальных идей важно иметь больше интерпретируемости и генеративных возможностей существующих моделей. Исследователи Стэнфордского университета представили фреймворк искусственного интеллекта для обучения представлению визуальных концепций, основанному на языке. Этот фреймворк обучает концептуальные кодировщики, которые кодируют информацию, соответствующую языковым концептам, привязанным к эмбеддингам текста из предварительно обученной модели вопрос-ответ по визуальному вопросу (Visual Question Answering, VQA).

Концептуальные кодировщики обучаются кодировать информацию, соответствующую языковым концептам. Модель извлекает эмбеддинги концепций из новых тестовых изображений, создает изображения с новыми визуальными концепционными композициями и обобщает их на невидимые концепты. Подход сочетает визуальные подсказки и текстовые запросы для извлечения графических изображений и подчеркивает важность связи между видением и языком в моделях генерации текста в изображения.

Исследование направлено на создание систем, способных распознавать визуальные концепции, подобные человеческим. Оно представляет собой фреймворк, использующий концептуальные кодировщики, соотнесенные с языковыми концептами. Эти кодировщики извлекают эмбеддинги концепций из изображений, создавая изображения с новыми композициями концепций.

В рамках этого фреймворка концептуальные кодировщики обучаются кодировать визуальную информацию в соответствии с языковыми концептами. Во время вывода модель извлекает эмбеддинги концепций из новых изображений, что позволяет генерировать идеи с новыми композициями. Сравнительная оценка показывает превосходные результаты рекомпозиции по сравнению с другими методами.

Предложенный фреймворк обучения визуальных концепций на основе языка превосходит текстовые методы. Он эффективно извлекает эмбеддинги концепций из тестовых изображений, создает новые композиции визуальных концепций и обладает лучшей дизентанглированностью и композициональностью. Сравнительный анализ показывает лучшую фиксацию изменений цвета, а человеческая оценка указывает на высокие показатели реализма и достоверности инструкций по редактированию.

В заключение, данное исследование предлагает эффективный фреймворк для изучения языково-осмысленных визуальных концепций через дистилляцию из предварительно обученных моделей. Подход демонстрирует улучшенные результаты в редактировании визуальных концепций, обеспечивая более ясное разделение концептуальных кодировщиков и создание изображений с новыми композициями визуальных идей. Особое внимание в исследовании уделяется эффективности использования визуальных подсказок и текстовых запросов для управления генерацией изображений с высоким уровнем реализма и достоверностью в соответствии с инструкциями по редактированию.

В исследовании рекомендуется использовать большие и более разнообразные наборы данных для улучшения фреймворка обучения языково-осмысленных визуальных концепций. Также предлагается исследовать влияние различных предварительно обученных визуально-языковых моделей и интегрировать дополнительные концептуальные оси для увеличения гибкости. Фреймворк следует оценивать на различных задачах редактирования визуальных концепций и наборах данных. В исследовании определен вопрос смягчения смещения в естественных изображениях и предложены потенциальные применения в синтезе изображений, переносе стиля и визуальном повествовании.