Исследователи Нанкайского университета и ByteDance представляют ‘ChatAnything’ новую AI-платформу, посвященную созданию усовершенствованных Personas на основе LLM.

Исследователи Нанкайского университета и ByteDance представляют 'ChatAnything' - новую платформу искусственного интеллекта, для создания уникальных личностей на основе технологии LLM.

Команда исследователей из Университета Нанкай и ByteDance представила новую структуру под названием ChatAnything, разработанную для создания антропоморфных персонажей для моделей больших языковых моделей (LLM) в онлайн-режиме. Цель состоит в создании персонажей с индивидуальным внешним видом, личностью и тональностью на основе только текстовых описаний. Исследователи используют возможность контекстного обучения LLM для генерации личностей с помощью специально разработанных системных подсказок. Они предлагают два новаторских концепта: смесь голосов (MoV) и смесь диффузоров (MoD) для разнообразной генерации голоса и внешности.

MoV использует алгоритмы синтеза речи на основе текста (TTS) с предопределенными тональностями, выбирая самую подходящую на основе текстовых описаний, предоставленных пользователем. MoD объединяет техники генерации текста в изображение и алгоритмы говорящей головы для упрощения процесса генерации говорящих объектов. Однако исследователи обнаружили проблему, когда антропоморфные объекты, созданные текущими моделями, часто не обнаруживаются предварительно обученными детекторами ключевых точек лица, что приводит к неудаче при генерации движений лица. Для решения этой проблемы они внедрили инъекцию на уровне пикселей во время генерации изображения для введения ключевых точек лица. Это инъекция на уровне пикселей значительно увеличивает график обнаружения ключевых точек лица, обеспечивая автоматическую анимацию лица на основе генерируемого речевого контента.

В докладе рассматриваются последние достижения в области больших языковых моделей (LLM) и их способности к контекстному обучению, позиционируя их на переднем плане академических дискуссий. Исследователи подчеркивают необходимость фреймворка, который создает усовершенствованные персоны с использованием LLM с индивидуальными личностями, голосами и визуальными характеристиками. Для генерации личности они используют возможность контекстного обучения LLM, создавая набор модулей голоса, используя API синтеза речи на основе текста (TTS). Модуль смеси голосов (MoV) выбирает тоны на основе текстовых входных данных пользователя.

Визуальный вид движений и выражения, управляемых речью, решается с использованием недавних алгоритмов говорящей головы. Однако исследователи сталкиваются с проблемами при использовании изображений, создаваемых моделями диффузии, в качестве входных данных для моделей говорящей головы. Только 30% изображений обнаруживаются современными моделями говорящей головы, что свидетельствует о недостаточном соответствии распределения. Для устранения этой разницы исследователи предлагают метод нулевого уровня, инъектируя ключевые точки лица во время фазы генерации изображения.

Предлагаемая структура ChatAnything включает четыре основных блока: модуль управления на основе LLM, инициализатор портрета, модуль смеси текстовых модулей для синтеза речи и модуль генерации движения. Исследователи внедрили модели диффузии, смены голоса и структурного контроля, чтобы создать модульную и гибкую систему. Для проверки эффективности направленной диффузии исследователи создали набор данных для проверки с подсказками из разных категорий. Они используют предварительно обученный детектор ключевых точек лица для оценки графика обнаружения ключевых точек лица, демонстрируя влияние их предложенного метода.

Исследователи представляют комплексную структуру ChatAnything для создания усовершенствованных персон с антропоморфными характеристиками с использованием LLM. Они решают проблемы обнаружения ключевых точек лица и предлагают инновационные решения, представляя обнадеживающие результаты на своем наборе данных для проверки. Эта работа открывает перспективы для будущего исследования в области интеграции генеративных моделей с алгоритмами говорящей головы и улучшения соответствия распределений данных.