Познакомьтесь с MAmmoTH серией открытых моделей большого языка (LLM), специально разработанных для общего решения математических проблем.

Познакомьтесь с MAmmoTH - открытыми моделями большого языка (LLM), решающими математические проблемы.

Современные большие языковые модели (LLM) сильно полагаются на математическое рассуждение, которое является основным фокусом данной работы. Существует явное разделение между закрытыми и открытыми LLM, даже с недавними успехами в этой области; закрытые модели, такие как GPT-4, PaLM-2 и Claude 2, доминируют в популярных бенчмарках математического рассуждения, таких как GSM8K и MATH, тогда как открытые модели, такие как Llama, Falcon и OPT, значительно отстают.

Существуют два основных подхода к замыканию этой разницы:

  • Постоянное предварительное обучение, например, с помощью Galactica и MINERVA, который теперь обучает LLM на более чем 100 млрд токенов веб-данных, связанных с математикой. Хотя это требует значительных вычислительных затрат, этот метод увеличивает возможности модели для научного рассуждения в общем.
  • Использование обученных данных, уникальных для каждого набора данных, методов настройки модели, таких как rejection sampling fine-tuning (RFT) и WizardMath, используется для совершенствования LLM. Хотя эти методы эффективны в своей области, они не могут быть перенесены на другие области математики, где требуется рассуждение.

Последние исследования Университета Ватерлоо, Огайо Стейт Университета, HKUST, Университета Эдинбурга и IN.AI исследуют легкий, но обобщаемый метод настройки математической инструкции для улучшения математического рассуждения LLM в общем (а не только в задачах настройки).

Текущие подходы сильно полагаются на методологии Chain-of-Thought (CoT), которые описывают, как они решают математическую проблему шагами естественного языка. Этот метод недостаточно точен при вычислениях и сложных математических или алгоритмических методах рассуждения. Кодовые методы, такие как PoT и PAL, используют сторонние ресурсы для оптимизации процедуры решения математических задач.

Этот метод рекомендует делегировать вычислительно сложные задачи (например, решение квадратных уравнений с помощью sympy или вычисление собственных значений матрицы с помощью numpy) отдельному интерпретатору Python. С другой стороны, PoT имеет несколько ограничений при решении более абстрактных сценариев рассуждения, таких как здравый смысл, формальная логика и абстрактная алгебра, особенно в отсутствие предварительно существующих API.

Чтобы воспользоваться преимуществами CoT и PoT, команда представляет новый гибридный набор данных для настройки инструкций по математике под названием MathInstruct. Его основные особенности:

  1. Обширное покрытие различных математических областей и уровней сложности
  2. Гибридные объяснения CoT и PoT.

Шесть недавно выбранных и семь предварительно существующих наборов данных являются основой для математических обоснований MathInstruct. С точки зрения моделирования, исследователи обучают и оценивают около 50 уникальных моделей, с базовыми значениями от 7B до 70B, чтобы узнать больше о влиянии различных форматов ввода-вывода и источников данных.

Результаты показывают несравненный потенциал моделей как математических генералистов.

Исследователи тестируют MAmmoTH на широком спектре наборов данных, от внутренних (IND) до внешних (OOD), таких как GSM8K, MATH, AQuA-RAT и NumGLUE. Эти модели значительно улучшают эффективность открытых LLM в математическом рассуждении и обобщаются лучше на OOD наборы данных по сравнению с современными подходами. Результаты модели 7B на популярном соревновательном наборе данных MATH превосходят результаты WizardMath (открытый MATH SoTA) в 3,5 раза (35,2% против 10,7%), а результаты MAmmoTH-Coder на 34B (настроенные на Code Llama) превосходят результаты GPT-4 (с использованием CoT). Обе модели MAmmoTH и MAmmoTH-Coder значительно улучшают точность доступных ранее открытых моделей.