Исследователи из Университета Хериот-Уатт и Alana AI предлагают FurChat нового агента эмбодиментной беседы на основе больших языковых моделей.

Исследователи предлагают FurChat - нового агента эмбодиментной беседы, разработанного на основе больших языковых моделей.

Большие языковые модели (LLM) заняли центральное место в мире, где технологии делают скачки и прорывы. Эти LLM являются невероятно сложными компьютерными программами, которые могут понимать, генерировать и взаимодействовать с человеческим языком в удивительно естественной форме. В недавних исследованиях был представлен инновационный воплощенный разговорный агент, известный как FurChat. LLM, такие как GPT-3.5, расширяют границы возможного в обработке естественного языка. Они могут понимать контекст, отвечать на вопросы и даже генерировать текст, который кажется написанным обычным человеком. Эта мощная возможность открыла двери для бесчисленных возможностей в различных областях, таких как робототехника.

Исследователи Университета Хериот-Ватт и Alana AI предлагают FurChat, революционную систему, которая может функционировать как рецепционист, участвовать в динамичных разговорах и передавать эмоции через мимические выражения. Внедрение Furchat в Национальный роботарий является примером его трансформационного потенциала, облегчая естественные разговоры с посетителями и предлагая различную информацию о возможностях, новостях, исследованиях и предстоящих событиях.

Робот Furhat, гуманоидный роботический бюст, имеет трехмерную маску, которая тесно напоминает человеческое лицо, и использует микро-проектор для проекции анимированного мимического выражения на эту маску. Робот установлен на контролируемой платформе, которая позволяет его голове двигаться и кивать, улучшая его реалистичные взаимодействия. Для обеспечения коммуникации Furhat оснащен микрофонной решеткой и динамиками, позволяющими распознавать и отвечать на человеческую речь.

Его система разработана для безупречных приложений. Управление диалогом включает три основных компонента: NLU, DM и пользовательскую базу данных. NLU анализирует входящий текст, классифицирует намерения и оценивает уверенность. DM поддерживает поток разговора, отправляет подсказки LLM и обрабатывает ответы. Пользовательская база данных создается путем веб-скрапинга сайта Национального роботария, которая предоставляет данные, соответствующие намерениям пользователя. Инженерия подсказок обеспечивает естественные ответы от LLM. Она сочетает несколько методов обучения за счет нескольких примеров и обучения с помощью подсказок для генерации ответов, учитывающих контекст. Разбор жестов использует мимические жесты Furhat SDK и распознавание эмоционального состояния LLM из текста для синхронизации мимических выражений с речью, создавая захватывающее взаимодействие. Для преобразования текста в речь используется Amazon Polly, который доступен в FurhatOS.

В будущем исследователи готовятся расширить его возможности. У них в планах создание возможности для многопользовательских взаимодействий, что является активной областью исследований в области роботов-рецепционистов. Кроме того, чтобы решить проблему галлюцинаций в языковых моделях, они планируют исследовать такие стратегии, как донастройка языковой модели и эксперименты с прямым генерированием разговора, сокращая зависимость от компонентов NLU. Значительным вехой для исследователей станет демонстрация FurChat на конференции Sigdial. Она послужит платформой для демонстрации возможностей системы более широкой аудитории коллег и экспертов.