Исследователи из AI2 и Университета Вашингтона раскрывают поверхностную природу выравнивания LLMs и представляют URIAL новый метод настройки без необходимости настройки.

Исследователи AI2 и Университета Вашингтона разгадывают суть выравнивания LLMs и представляют URIAL – новый метод настройки без необходимости настройки.

Большие модели языка (LLMs) – это недавние инновации в области искусственного интеллекта (AI) и глубокого обучения. Некоторые из известных LLM, такие как GPT, PaLM, LLaMa и другие, продемонстрировали невероятный потенциал в генерации контента. От ответа на вопросы и резюмирования текста до перевода языка и завершения кода, эти модели могут многое. Эти модели, включая ChatGPT, прошли обширное предварительное обучение на огромных надзорно-неуправляемых текстовых корпусах. Однако недавние исследования показали, что часто применяемая практика настройки моделей может быть не так важна, как было ранее предполагаемо.

Настройка выравнивания, то есть процесс улучшения базовых LLM для использования в качестве AI-ассистентов в открытом домене, была принята в качестве промышленного стандарта. Это включает обучение с подкреплением от сведений, полученных от человека (RLHF) и обучение с учителем (SFT). Данный стандарт был подвергнут сомнению в рамках исследования под названием LIMA, которое показало, что даже 1 000 примеров для обучения с учителем могут быть достаточными для достижения значимого выравнивания.

Гипотеза поверхностного выравнивания, выдвинутая LIMA, предполагает, что настройка выравнивания, в отличие от радикального изменения поведения базовых LLM, может обучать их выбирать конкретные форматы данных для привлечения пользователей. Это показало, что даже несколько примеров могут породить высококачественные, выровненные модели в рамках обучения с учителем.

Поскольку недостаточно проведено исследований, чтобы найти надежную поддержку поверхностной теории выравнивания, команда исследователей из Allen Institute for Artificial Intelligence и University of Washington обратилась к широко используемой методике настройки выравнивания в недавней статье с целью превращения базовых LLM в полезных AI-ассистентов для открытого домена. Настройка предпочтений осуществлена с помощью обучения с подкреплением от сведений, полученных от человека, а обучение по инструкции было осуществлено методом обучения с учителем.

Команда проанализировала изменение распределения символов между базовыми LLM и их выравненными версиями, такими как Llama-2 и Llama-2-chat, чтобы изучить влияние настройки выравнивания. Они выяснили, что базовые LLM и их выровненные версии максимально совпадают в топовых символах и практически идентично декодируют на большинстве позиций символов. Маркеры дискурса и предупреждения о безопасности являются примерами символов стиля, которые больше всего подвержены изменениям распределения. В данном исследовании представлено убедительное доказательство гипотезы о том, что настройка выравнивания в основном сосредоточена на восприятии лингвистического стиля AI-ассистентов, при этом базовые LLM предоставляют информацию, необходимую для ответа на запросы пользователей.

Команда также представила тему исследования в ответ на эти результаты: насколько можно выровнять базовые LLM без использования SFT или RLHF? Они предложили URIAL (Untuned LLMs with Restyled In-context Alignment) – методику выравнивания, для которой не требуется настройка. С помощью всего трех примеров стиля и системного приглашения URIAL достигает эффективного выравнивания только через в контекстное обучение (ICL) с базовыми LLM.

В серии случаев, названной just-eval-instruct, команда представила детальный и понятный анализ, который показывает, как базовые LLM с URIAL могут выступать наравне или лучше, чем LLM с настроенным SFT (Mistral-7b-Instruct) или SFT+RLHF (Llama-2-70b-chat). Результаты демонстрируют, что целенаправленный запрос и контекстное обучение могут значительно сгладить разрыв между стратегиями выравнивания без настройки и настройкой на основе настройки.

В заключение, результаты оценки подчеркивают поверхностную настройку выравнивания и показывают, что она в основном связана с принятием лингвистических стилей и зависит от предварительных знаний базовых LLM.