Исследователи из МИТ и FAIR Meta представили RCG (Representation-Conditioned Image Generation) прорывной ИИ-фреймворк в создании изображений безусловно классифицированной.

RCG (Моделирование Изображений, Зависимых от Представления) - Прорывной ИИ-фреймворк Для Создания Изображений с Безусловно Классифицированной Основой, Представленный Исследователями из МИТ и FAIR Meta

Как можно создавать высококачественные изображения, не полагаясь на человеческие аннотации? Эта статья от MIT CSAIL и FAIR Meta рассматривает проблему создания высококачественных изображений без использования человеческих аннотаций. Они представляют новую методику под названием Representation-Conditioned Image Generation (RCG), которая использует самообучение с использованием представления, полученного из распределения изображений с помощью предварительно обученного кодировщика. Эта методика достигла превосходных результатов в генерации изображений как с условием, так и без условия класса и является конкурентоспособной по сравнению с ведущими методами классифицированной генерации изображений.

Исторически супервизируемое обучение превалировало в компьютерном зрении, но методы самообучения, такие как контрастивное обучение, уменьшили разрыв. В то время как предыдущие работы по генерации изображений преуспевали в условной генерации с использованием человеческих аннотаций, безусловная генерация сталкивалась с проблемами. Введенная методика, RCG, изменяет ситуацию, преуспевая в генерации изображений как с условием, так и без условия класса без участия человека. RCG достигает передовых результатов, что является значительным прорывом в самообучающей генерации изображений.

Использование модели распространения представления (RDM) для самообучения может помочь сократить разрыв между супервизируемым и несупервизируемым обучением в генерации изображений. RCG интегрирует RDM с генератором пикселей, обеспечивая возможность генерации изображений неограниченной классификации с потенциальными преимуществами перед условной возрастной классификацией.

Методика RCG основывает генерацию изображений на самообучающемся распределении представлений, полученных из распределения изображений с помощью предварительно обученного кодировщика. Используя генератор пикселей для условного кодирования изображения, RCG интегрирует RDM для отбора образов в пространстве представлений, обученных через диффузионные модели шумоподавления. RCG использует безклассификационное руководство для улучшения производительности генеративной модели, наглядно проиллюстрированное MAGE. Предварительно обученные кодировщики изображений, такие как Moco v3, нормализуют выражения для подачи на RDM.

Методика RCG превосходит в генерации изображений без условий класса, достигая передовых результатов и конкурирования с ведущими методами в генерации изображений с условием класса. На наборе данных ImageNet 256×256, RCG достигает значения Frechet Inception Distance равного 3.31 и Inception Score равного 253.4, что указывает на генерацию изображений высокого качества. Благодаря условному кодированию, RCG значительно улучшает генерацию без условий класса для различных генераторов пикселей, таких как ADM, LDM и MAGE, а дополнительные этапы обучения дополнительно улучшают производительность. Самокодированный подход генерации изображений RCG является универсальным и последовательно улучшает генерацию без условий класса с использованием различных современных генеративных моделей.

Методика RCG достигла прорывных результатов в генерации изображений без условий класса, используя самообучающееся распределение представлений. Ее безупречная интеграция с разнообразными генеративными моделями существенно улучшает их производительность в области генерации без условий класса, а ее самокомментированный подход, не требующий использования человеческих аннотаций, предлагает преимущества перед условными методами. Легкий дизайн RCG и способность к адаптации к тренировке для выполнения конкретных задач позволяют использовать большие неразмеченные наборы данных. RCG доказала свою высокую эффективность и потенциал для создания изображений высокого качества.