Познакомьтесь с набором данных LMSYS-Chat-1M крупномасштабным набором данных, содержащим миллион реальных разговоров с 25 передовыми моделями глубокого обучения языка

Погрузитесь в мир бесконечных возможностей с набором данных LMSYS-Chat-1M 1 миллион реальных разговоров с 25 передовыми моделями глубокого обучения языка

Большие модели языка (LLM) стали неотъемлемой частью различных приложений искусственного интеллекта, от виртуальных помощников до генерации кода. Пользователи изменяют свое поведение при взаимодействии с LLM, используя определенные запросы и форматы вопросов для разных целей. Изучение этих шаблонов может дать представление о ожиданиях пользователей и доверии к различным LLM. Более того, понимание диапазона вопросов, от простых фактов до сложных вопросов с большим контекстом, может помочь улучшить LLM для лучшего обслуживания пользователей, предотвращения злоупотреблений и повышения безопасности искусственного интеллекта. Можно сказать, что:

  • Высокие операционные издержки, связанные с обслуживанием моделей языка, делают это финансово сложным для многих организаций для сбора реальных данных пользовательских вопросов.
  • Компании, обладающие значительными наборами данных пользовательских вопросов, опасаются их публикации из-за опасений раскрыть свои конкурентные преимущества и желания сохранить конфиденциальность данных.
  • Сложно побудить пользователей взаимодействовать с открытыми моделями языка, поскольку эти модели часто не работают так хорошо, как разработанные крупными компаниями.
  • Эта сложность в привлечении пользователя к открытым моделям делает сложным составление значительного набора данных, который точно отражал бы реальные взаимодействия пользователей с этими моделями в целях исследования.

Для заполнения этой пробела данная исследовательская работа представляет новый масштабный набор данных из реального мира по имени LMSYS-Chat-1M. Этот набор данных был тщательно отобран из обширной коллекции реальных взаимодействий между большими моделями языка (LLM) и пользователями. Эти взаимодействия были собраны в течение пяти месяцев, путем предоставления бесплатного онлайн-сервиса LLM, который давал доступ к 25 популярным LLM, включая как открытые, так и проприетарные модели. Для работы этого сервиса требовались значительные вычислительные ресурсы, включая несколько тысяч часов работы A100.

Для поддержания взаимодействия с пользователем со временем авторы реализовали конкурентный элемент, известный как “арена чатботов”, и поощряли пользователей использовать сервис, регулярно обновляя рейтинги и таблицы лидеров для популярных LLM. В итоге, LMSYS-Chat-1M содержит более миллиона пользовательских разговоров, демонстрирующих разнообразие языков и тем. Пользователи дали свое согласие на использование их взаимодействий для этого набора данных через раздел “Условия использования” на сайте сбора данных.

Этот набор данных был собран с демонстрационного сайта Vicuna и Chatbot Arena с апреля по август 2023 года. Пользователям предоставляется три варианта интерфейса чата: чат с одной моделью, арена чатботов, где чатботы соревнуются, и арена чатботов, позволяющая пользователям сравнивать двух чатботов бок о бок. Эта платформа полностью бесплатна, и ни пользователи не получают вознаграждения, ни на них не налагаются какие-либо платежи за ее использование.

В этой статье авторы исследуют потенциальные применения LMSYS-Chat-1M в четырех разных случаях использования. Они демонстрируют, что LMSYS-Chat-1M может эффективно настраивать компактные модели языка для использования в качестве мощных модераторов контента, достигая производительности, сравнимой с GPT-4. Кроме того, несмотря на меры безопасности в некоторых обслуживаемых моделях, LMSYS-Chat-1M все равно содержит разговоры, которые могут вызвать сложности для систем безопасности ведущих языковых моделей, предлагая новую базу для изучения устойчивости и безопасности моделей.

Кроме того, набор данных включает диалоги высокого качества между пользователем и моделью языка, подходящие для настройки инструкций. Используя подмножество этих диалогов, авторы показывают, что модели Llama-2 могут достичь уровней производительности, сравнимых с Vicuna и Llama2 Chat в конкретных тестах. Наконец, широкий охват тем и задач в LMSYS-Chat-1M делает его ценным ресурсом для создания новых вопросов для языковых моделей.