Исследователи из Yale и Google DeepMind разблокировали успех в решении математических задач с помощью передовых техник точной настройки на больших языковых моделях.

Исследователи из Йельского университета и Google DeepMind достигли прорыва в решении математических задач с использованием передовых методов точной настройки на больших языковых моделях.

Даже самые передовые модели больших языков (LLM), такие как GPT-4 и PaLM 2, испытывают сложности в решении математических проблем, поскольку они требуют воображения, математического рассуждения и вычислений. Шанс того, что LLM сможет найти правильный ответ, значительно выше, когда он может многократно решать задачу. Таким образом, LLM уже демонстрирует потенциал для улучшения в решении этой арифметической задачи. Например, предварительно обученная модель PaLM 2- L может достичь около 33,4% точности с использованием жадного декодирования. Однако в 79,4% случаев есть по крайней мере один правильный ответ (pass@64), когда генерируется 64 решения с использованием сэмплирования по температуре (Таблица 1).

Таблица 1: Результаты точной настройки наблюдаемых решений. Сравниваются два разных источника для обучающих данных: набор данных MATH и набор данных PRM800K.

Это значительное расхождение в производительности показывает, что LLM может генерировать точные ответы, но им трудно отличить правильные и ошибочные решения. Поэтому, чтобы сократить это расхождение в производительности, они исследуют методики точной настройки, специфические для данной задачи, которые могут улучшить способность LLM к разработке и оценке решений.

Они рассматривают три методики точной настройки:

(1) SSFT, точная настройка решений с обучением на каждом шаге. Они исследуют, могут ли предварительно обученные LLM получить выгоду от точной настройки с обучением на каждом шаге в качестве методики стартовой точки.

(2) Переупорядочивание кластеров решений (SCR). Они продолжают совершенствовать генератор в качестве оценщика решений для переупорядочивания кандидатов-решений, чтобы улучшить способность LLM оценивать решения. В то время как ранее проводились исследования в области выборки или переупорядочивания решений, они предлагают новый метод, объединяющий преимущества голосования большинства с переупорядочиванием при снижении затрат на ранжирование. Более конкретно, как начальный этап голосования большинства, они сначала сортируют кандидатские ответы на несколько групп на основе их математической эквивалентности. Затем для улучшения результатов голосования большинства они применяют оценщик решений к решениям в наиболее частых кластерах.

(3) Последовательная точная настройка с многозадачностью. Помимо задачи оценки решений, их также интересует улучшение производительности LLM в задаче генерации решений и определение, может ли обучающая задача оценки решений помочь модели генерировать решения.

Для достижения этой цели они предоставляют среду последовательного обучения с несколькими задачами, где задача оценки решений формулируется как задача генерации естественного языка, так что её обучающая цель может предложить ценный сигнал наблюдения для модели генерации решений. Более подробно, они настраивают модель в трех этапах: (1) как генератор (SSFT), (2) как оценщик решений (SCR) и (3) снова как генератор (SSFT).

Они проводят исследования с использованием PaLM 2-S* и PaLM 2-L, малых и больших форм PaLM 2, на сложном наборе данных MATH, что приводит к следующим выводам:

• Поскольку SSFT выгодно использует очень детализированные и хорошо отформатированные ответы, качество и стиль решений пошагового алгоритма могут существенно влиять на уточненную модель.

• Переупорядочивание только самых распространенных кластеров решений может привести к лучшей производительности, чем переупорядочивание всех решений, а также повысить вычислительную эффективность, поэтому они считают, что это было бы лучшей практикой для будущих работ.

• Они продемонстрировали пользу от обучения модели и генерации решений и представили успешную попытку использования сигнала обучения бинарной оценки для модели генерации. Их предложенная последовательная точная настройка с многозадачностью может более эффективно улучшить производительность модели генерации решений по сравнению только с точной настройкой с обучением на каждом шаге.