Исследователи Университета Калифорнии в Беркли надеются на революцию в целях направленных разговоров
Исследователи Университета Калифорнии в Беркли Надежда на революцию в целях направленных разговоров
В новой статье исследователи из Университета Калифорнии в Беркли надеются, что смогут революционизировать целевые разговоры с моделями LLM, используя обучение с подкреплением. За последний год мы видели, как LLM-модели проявили себя в широком спектре задач естественного языка, от суммирования текста до генерации кода.
Однако эти модели продолжают испытывать проблемы с целевыми разговорами. Это была долговременная проблема, особенно в ситуациях, где важны персонализированные и краткие ответы, например, в роли опытного агента по путешествиям.
Проблема заключается в том, что традиционные модели часто обучаются с использованием уточненной оптимизации или одношагового обучения с подкреплением. Это может привести к недостижению оптимальных результатов в разговорах через несколько взаимодействий. Кроме того, обработка неопределенности в этих диалогах вызывает значительные трудности.
- Кеширование в Github Actions
- Понимание прогнозного обслуживания — волна данных формирование особенностей (Часть 1)
- Использование искусственного интеллекта для обработки естественно-языковых запросов в целях поиска знаний.
В этой статье команда представляет новый метод, включающий оптимизированный алгоритм без примеров и инженерию фантазии для генерации разнообразных и задачно-ориентированных вопросов, что критично для эффективного тренирования агентов вниз по направлению.
Инженерия фантазии, хотя и неспособна самостоятельно создавать эффективных агентов, сотрудничает с LLM для генерации потенциальных сценариев. Чтобы дальше усовершенствовать эффективность агента в достижении желаемых результатов, исследователи используют многошаговое обучение с подкреплением для определения оптимальной стратегии.
Интересным является то, что обучение модели команды отклоняется от традиционных примеров в рамках политики и использует оффлайн оптимизацию со значением для обучения политике на основе синтетических данных, что позволяет сократить вычислительные затраты.
Для проверки своего метода исследователи провели сравнительное исследование между агентом GPT и IE+RL, привлекая оценщиков, чтобы решать задачи в реальном мире в двух целевых разговорах.
Применение модели GPT-3.5 в IE для генерации синтетических данных и компактной модели GPT-2 в качестве агента показывает практичность подхода, минимизируя вычислительные затраты.
Пока результаты экспериментов ясно демонстрируют превосходство предложенного агента над моделью GPT во всех метриках, обеспечивая естественность диалогов. Агент IE+RL превосходит своего аналога, генерируя интеллектуально созданные, легко устраиваемые вопросы и контекстно актуальные продолжения.
В моделировании сценариев, хотя оба агента проявили себя наилучшим образом, качественные оценки оказались в пользу агента IE+RL, подчеркивая его эффективность в реальных приложениях. Если эта методика окажется масштабируемой, она может обещать будущие улучшения в диалоговых агентах без примеров, открывая путь к более сложному взаимодействию с системами искусственного интеллекта.