Внутри Orca 2 новый способ Microsoft обучать маленькие языковые модели рассуждениям

Внутри Orca 2 новый подход Microsoft в обучении маленьких языковых моделей рассуждениям

Модель превосходит намного более крупные LLM в бенчмарках по рассуждениям.

Создано с помощью DALL-E

Недавно я начал рассылку, посвященную искусственному интеллекту, которая уже насчитывает более 160 000 подписчиков. TheSequence – это рассылка, ориентированная на машинное обучение, которая занимает 5 минут чтения и не содержит хайпа, новостей и т. д. Цель заключается в том, чтобы держать вас в курсе последних проектов по машинному обучению, научных статей и концепций. Попробуйте подписаться ниже:

TheSequence | Jesus Rodriguez | Substack

Лучший источник для быть в курсе развития машинного обучения, искусственного интеллекта и данных…

thesequence.substack.com

В начале этого года Microsoft Research представила модель Orca, состоящую из 13 миллиардов параметров, которая может эмулировать сложные рассуждения, проявляемые другими LLM. В частности, Orca изучает сигналы от GPT-4, включая объясняющие следы, тщательное шаг за шагом мышление и множество сложных инструкций. Несколько дней назад Microsoft продолжила работу в этом направлении с выпуском Orca 2, расширением революционных исследований, которое еще глубже погружает в мир Small Language Models (SLM). Это новое издание бросает вызов традиционным подходам к рассуждению, расширяя границы того, что возможно в этой области.

Традиционно обучение SLM полагается на моделирование имитации, стремясь воспроизвести выводы их более прославленных аналогов. Однако Microsoft Research утверждает, что эта неумолимая акцентировка на имитации может непреднамеренно ограничить потенциал этих меньших моделей. Здесь цель состоит в том, чтобы дать малым LLM возможность использовать разные стратегии решения для различных задач, отклоняющиеся от выбранных более крупными моделями путей.

В основе Orca 2 лежат две ключевые техники:

i. Настройка инструкции: Это недавнее понятие, которое получило известность в области LLM. Эта техника заключается в обучении на основе пар ввод-вывод, где вводом являются описания задач на естественном языке, а вывод демонстрирует желаемое поведение. Эффективность настройки инструкции показана в том, что она способствует улучшению способности модели следовать инструкциям как в знакомых, так и в незнакомых задачах, повышает общую качество создаваемого контента и обеспечивает модели возможности нулевого шага и продвинутые навыки рассуждения.

ii. Настройка объяснения: В то время как настройка инструкции очень эффективна, у нее есть свои ограничения. В частности, она может приводить к порождению выводов, которые стилистически звучат корректно, но фактически являются ошибочными. Например, направление настройки к очень лаконичным целям может лишить модель стоящего понимания сложных процессов рассуждения, ограничивая ее способность к обобщению в различных задачах. Чтобы решить эту проблему, Orca 1 представила настройку объяснения, новый подход, направленный на обучение моделей-учеников с использованием более информативных и выразительных сигналов рассуждения. Это включает создание системных инструкций, которые побуждают учительскую модель предоставлять подробные объяснения при выполнении задачи. Эти системные инструкции служат высокоуровневыми руководствами, которым LLM должны следовать при взаимодействии с отдельными пользовательскими запросами, и они отличаются от диалогов, инициированных пользователями, благодаря флагу «система» в пользовательском интерфейсе ChatML.

Microsoft объединяет эти две техники в Orca 2, чтобы достичь видов рассуждений, которые кажутся высокоэффективными для SLMS.

Orca 2 и осторожное рассуждение

Осторожное рассуждение – это процесс определения наиболее подходящей стратегии решения для данной задачи. Этот процесс охватывает широкий спектр вариантов, начиная от прямого создания ответов до использования более вдумчивых стратегий “медленного мышления”, таких как шаг за шагом рассуждения, угадывание и проверка или объяснение-потом-ответ и другие. В следующем описывается методология обучения модели языка осторожного рассуждения (LLM):

1) Начните с разнообразной коллекции задач, представляющей собой перекрестный разрез вызовов.

2) Исходя из полученных от работы Orca результатов, принимайте обоснованные решения относительно задач, которые требуют специфических стратегий решения, будь то прямой ответ, пошаговое решение, объяснение и затем ответ или другие.

3) Создайте задачно-специфические системные инструкции, адаптированные под выбранную стратегию, обеспечивая получение учительских ответов для каждой задачи.

4) Во время тренировочной фазы используйте процесс, известный как “стирание подсказки”, где системная инструкция ученика заменяется общей, не содержащей специфических деталей задачи, акцентируя внимание на автономном обучении модели.

Осторожный процесс рассуждения хорошо иллюстрируется в следующем диалоге, который показывает, как модель ученика учит стратегию, не начиная с конкретных инструкций.

Изображение: Исследования Microsoft

Для тренировки Orca 2 Microsoft создали новый набор данных, содержащий около 817 000 образцов обучения. На основе основ, заложенных Orca 1, Orca 2 прошла прогрессивное обучение, извлекая данные из оригинальных аннотаций FLAN, набора данных Orca 1 и нового набора данных Orca 2. Основа этого тренировочного набора данных по-прежнему составляет FLAN, обогащенная математическими задачами и коллекцией примеров с небольшим числом решений.

Основа тренировки Orca 2 основана на технике, известной как прогрессивное обучение, которая заключается в начале обучения с использованием точек контроля LLaMA-2–7B или LLaMA-2–13B, а затем настройке на обучающем наборе данных FLAN-v2 в течение одной эпохи. Следует отметить, что набор данных FLAN-v2 содержит задачи как с нулевым ответом, так и с примерами небольшим числом решений. Затем модель прошла обучение на 5 миллионов образцов данных ChatGPT из Orca 1 в течение трех эпох. Последний этап обучения состоял из четырех эпох на комбинированном наборе данных, состоящем из 1 миллиона образцов данных GPT-4 из обоих Orca 1 и 817 000 образцов данных Orca 2.

Оценка

Испытание Orca 2 на прочность прошло в виде всесторонней оценки, проведенной Microsoft. Эта оценка охватывает широкий спектр показателей, начиная от сложных способностей, таких как рассуждение, до фундаментальных задач, таких как завершение текста, а также привязка, правдивость и безопасность.

Изображение: Исследования Microsoft

Работа над Orca 2 подчеркивает возможности улучшения рассуждательных способностей SLM. Через специализированное обучение на синтетических данных модели Orca 2 продемонстрировали не только выполнимость, но и достижение повышенного уровня производительности. Используя разнообразные техники рассуждения и умело определяя наиболее эффективные стратегии решения для каждой задачи, эти модели показывают мастерство, которое часто соответствует или превосходит гораздо более крупные модели, особенно в области задач рассуждения с нулевым ответом. Признавая существование врожденных ограничений, связанных с их основными моделями, модели Orca 2 представляют надежную перспективу для будущих улучшений, особенно в плане улучшения рассуждательных способностей, управления и безопасности, благодаря стратегическому применению синтетических данных в послетренировочной доработке.