Исследователи из Китая представляют ImageReward прорывной подход искусственного интеллекта к оптимизации моделей текст-изображение с использованием обратной связи на основе предпочтений человека.

ImageReward революционный подход искусственного интеллекта к оптимизации моделей текст-изображение с использованием обратной связи на основе предпочтений человека, разработанный китайскими исследователями

В последние годы произошло огромное развитие в генеративных моделях текст-в-изображение, включая авторегрессионные и диффузионные методы. Эти модели могут создавать высококачественные и семантически связанные визуальные образы по различным темам, когда им предоставляются подходящие языковые описания (т.е. подсказки), что вызывает значительный общественный интерес к их возможным применениям и эффектам. Несмотря на продвижение, текущие модели, обучаемые без учителя, все еще имеют долгий путь вперед. Поскольку предварительное обучение происходит в шумных условиях и отличается от действительных распределений подсказок пользователей, согласование моделей с предпочтениями людей является серьезной сложностью. 

В результате возникают несколько известных проблем с фотографиями, включая, но не ограничиваясь:

• Ошибки выравнивания текста и изображений: как показано на рисунке 1(а)(б), включая неспособность изображать все числа, качества, свойства и связи объектов, указанные в текстовых подсказках. 

• Проблема частей тела: отображение конечностей или других искривленных, отсутствующих, дублирующихся или аномальных частей тела человека или животного, как показано на рисунке 1(е)(f). 

• Эстетика человека: отклонение от типичных или основных эстетических предпочтений людей, как видно на рисунке 1(с)(д).

 • Токсичность и предвзятость: включая оскорбительный, насильственный, сексуальный, дискриминирующий, незаконный или вызывающий беспокойство контент, как показано на рисунке 1(f). 

Рисунок 1: (Верхняя) Изображения из топ-1 генерации из 64 генераций, определенные несколькими оценщиками текста – изображения.(Нижняя) Создание с использованием ImageReward в качестве обратной связи после обучения ReFL. Выбор ImageReward или обучение ReFL улучшает когерентность текста и предпочтение человека к изображениям. Курсив указывает стиль или функцию, а полужирное обычно означает суть подсказок (от реальных пользователей, сокращено).

Однако для преодоления этих всеобъемлющих проблем требуется не только улучшение моделей и предварительных данных. Исследователи использовали обучение с подкреплением на основе обратной связи от людей (RLHF) в обработке естественного языка (NLP), чтобы направить большие языковые модели на предпочтения и ценности людей. Метод основан на обучении модели вознаграждения (RM) с использованием множества сравнений модельного вывода, которые были экспертно аннотированы для захвата предпочтения человека. Несмотря на его эффективность, процесс аннотации может быть дорогим и сложным, потому что требует месяцев для определения критериев разметки, найма и обучения экспертов, проверки ответов и создания RM. 

Исследователи из Университета Цинхуа и Пекинского университета почтовых и телекоммуникационных услуг представляют и выпускают общепризнанную модель ImageReward, обученную на основе предпочтений людей в текстах-в-изображениях, осознавая важность решения этих трудностей в генеративных моделях. ImageReward обучается и оценивается на 137 тысячах пар экспертно аннотированных сравнений на основе реальных подсказок пользователей и соответствующих модельных выводов. Они продолжают исследовать метод прямой оптимизации ReFL для улучшения диффузионных генеративных моделей. 

• Они разрабатывают конвейер для аннотации предпочтений человека в тексте-к-изображению, систематически идентифицируя его трудности, устанавливая стандарты для количественной оценки и обучения аннотаторов, улучшая эффективность разметки и обеспечивая проверку качества. Они создают набор данных для сравнения текста-к-изображению, основанный на этом конвейере, для обучения модели ImageReward. 

• В результате глубоких исследований и тестирования они показывают, что ImageReward превосходит другие техники оценки текста-изображения, такие как CLIP (на 38,6%), Aesthetic (на 39,6%) и BLIP (на 31,6%) в понимании предпочтений человека в синтезе текста-изображения. Кроме того, ImageReward продемонстрировал значительное снижение вышеупомянутых проблем, предлагая показательную информацию по включению человеческих желаний в генеративные модели. 

• Они утверждают, что автоматическая оценка текста-к-изображению ImageReward может быть полезной. ImageReward согласуется с ранжированием предпочтений человека и обладает превосходной различимостью между моделями и образцами по сравнению с оценками FID и CLIP при использовании подсказок от реальных пользователей и MS-COCO 2014. 

• Для точной настройки моделей диффузии, касающихся оценок предпочтений людей, они предлагают обучение с обратной связью по вознаграждению (ReFL). Поскольку модели диффузии не предоставляют вероятности для своих генераций, их особый взгляд на идентифицируемость качества ImageReward на более поздних фазах смягчения шума позволяет прямое обратное обучение на этих моделях. ReFL был полностью оценен автоматически и вручную, что продемонстрировало его преимущества перед другими методами, включая увеличение данных и перевзвешивание потерь.