Как улучшить качество больших языковых моделей? Знакомьтесь с PIT неявной системой самовоспроизводства

Как повысить качество больших языковых моделей? Знакомьтесь с PIT неявной системой самовоспроизводства

LLM(Большие языковые модели) достигли передовых результатов в различных сложных задачах, таких как математическое рассуждение, суммирование, разговоры, индукция схемы и решение проблем в определенной области. Успех LLM зависит от их способности следовать инструкциям и соответствовать предпочтениям человека. Однако они имеют ограничения и могут создавать неверную информацию, ошибки рассуждения или бесполезный контент.

Было предложено несколько подходов для улучшения работы LLM, с растущим фокусом на то, чтобы LLM самостоятельно улучшал качество своих ответов. Улучшение работы LLM традиционно включало сбор более разнообразных и высококачественных данных обучения через человеческую аннотацию, что является ресурсоемким процессом, особенно для специализированных областей. Методы на основе наборов промптов стали популярными из-за своей эффективности, эффективности и удобства. Однако эти методы обычно требуют детальных инструкций в качестве входных данных, что может быть сложно и дорого создавать, особенно для сложных целей улучшения.

В ответ на эту проблему исследователи из Иллинойсского университета в Урбане-Шампейне и Google предлагают “Нелогичную методику улучшения (PIT)”, которая позволяет LLM узнавать цели улучшения из данных о предпочтениях человека, не требуя явных инструкций. PIT использует данные о предпочтениях для обучения моделей вознаграждения, что позволяет избежать необходимости дополнительных усилий или сбора данных от человека. Основная идея PIT заключается в переформулировке объекта обучения метода обучения с подкреплением от обратной связи человека (RLHF). Вместо максимизации качества ответа для заданного ввода PIT стремится максимизировать разницу в качестве между ответом и справочным ответом, более тесно соответствуя предпочтениям человека.

Исследователи провели эксперименты на реальных и синтетических наборах данных для оценки производительности PIT по сравнению с базовыми методами. Их результаты демонстрируют, что PIT значительно превосходит стратегии с промптом в улучшении качества ответа.

Реформулировка объекта обучения RLHF PIT сосредоточена на сужении разрыва в качестве между моделью и справочными ответами. Этот подход позволяет PIT итеративно улучшать ответы без явных инструкций. Эксперименты на реальных наборах данных и синтетических данных демонстрируют превосходство PIT по сравнению с методами на основе промптов, подчеркивая его эффективность в улучшении качества ответов LLM.

PIT превосходит метод Self-Refine, который полагается на промпты для самоулучшения. Уровень улучшения по сравнению с Self-Refine различается в зависимости от метода оценки (например, оценка человека, языковые модели сторонних производителей, модели вознаграждения), но PIT всегда демонстрирует лучшие результаты в экспериментах.

В исследовании также исследуется влияние настройки температуры на методы самоулучшения, указывая на то, что низкие температуры дают лучшие результаты с PIT. В то же время высокие температуры более подходят для Self-Refine. Кроме того, исследуется значимость курсового обучения с подкреплением и количества итераций улучшения, подчеркивая необходимость тщательного рассмотрения условий остановки в практических приложениях.

В заключение, нелогичная методика улучшения PIT предлагает многообещающий подход для улучшения работы больших языковых моделей. Учитывая цели улучшения из данных о предпочтениях человека, PIT решает проблемы традиционных методов с промптами и проявляет свою эффективность в улучшении качества ответов LLM на различных наборах данных и условиях.