Google и исследователи из MIT представляют StableRep революционное обучение искусственного интеллекта с помощью синтетической графики для улучшения машинного обучения

Google и исследователи из MIT представляют StableRep революционное обучение искусственного интеллекта с помощью синтетической графики для улучшения машинного обучения

Исследователи исследовали возможность использования синтетических изображений, сгенерированных моделями текст-изображение, для обучения визуальным представлениям и создания основы для более эффективного и свободного от предубеждений машинного обучения. Новое исследование исследователей Массачусетского технологического института (MIT) сосредоточено на Stable Diffusion и показывает, что обучение методов самообучения на синтетических изображениях может соответствовать или даже превосходить эффективность их аналогов на реальных изображениях, когда генеративная модель правильно настроена. Предложенный подход, названный StableRep, вводит метод множественного положительного контрастного обучения, рассматривая несколько изображений, сгенерированных из одного текстового промпта, как положительные для друг друга. StableRep обучается исключительно на синтетических изображениях и превосходит методы последнего поколения, такие как SimCLR и CLIP, на масштабных наборах данных, даже достигая более высокой точности, чем CLIP, обученная с использованием 50 миллионов реальных изображений в сочетании с языковым руководством.

Предложенный подход StableRep вводит новый метод обучения представлений, способствуя инвариантности внутри подписи. Рассматривая несколько изображений, сгенерированных из одного текстового промпта, как положительные для друг друга, StableRep использует множественную положительную контрастную потерю. Результаты показывают, что StableRep достигает замечательной линейной точности на Imagenet, превосходя другие методы самообучения, такие как SimCLR и CLIP. Успех подхода объясняется возможностью более тщательного контроля над выборкой в синтетических данных, используя такие факторы, как масштаб руководства в Stable Diffusion и текстовые промпты. Кроме того, генеративные модели имеют потенциал обобщения за пределы своих обучающих данных, предоставляя более богатый синтетический тренировочный набор по сравнению только с реальными данными.

В заключение, исследование демонстрирует удивительную эффективность обучения методов самообучения на синтетических изображениях, сгенерированных с помощью Stable Diffusion. Подход StableRep с его методом множественного положительного контрастного обучения показывает превосходную эффективность в области обучения представлений по сравнению с методами последнего поколения, использующими реальные изображения. Исследование открывает возможности упрощения сбора данных с помощью генеративных моделей текст-изображение, что представляет собой экономически эффективную альтернативу для получения больших и разнообразных наборов данных. Однако необходимо решить проблемы, такие как семантические несоответствия и предвзятость в синтетических данных, и учитывать потенциальное воздействие использования непросмотренных веб-данных для обучения генеративных моделей.