Исследование надеется разблокировать потенциал LLM в математическом решении проблем

Исследование, целящееся раскрыть потенциал LLM в математическом решении проблем

В постоянно меняющемся мире искусственного интеллекта, даже самые передовые LLM, включая GPT-4 и PaLM 2, сталкиваются с трудностями при решении сложных математических задач. Недавнее исследование ученых из Google и Йельского университета надеется прояснить, как LLM могут преодолеть эти трудности и значительно улучшить свои способности к решению арифметических проблем.

Исследование, проведенное с использованием модели PaLM 2 в ее малом (PaLM 2-S) и большом (PaLM 2-L) форматах, раскрывает интересные идеи о потенциале LLM. В начале исследование показывает, что модели обладают более высокой вероятностью обнаружения точных ответов, когда им разрешено несколько раз попробовать решить проблему.

Например, обученная заранее модель PaLM 2-L достигает впечатляющей точности в 33,4% при жадном декодировании; но исследование подчеркивает, что этот показатель можно еще улучшить. При использовании 64 вариантов решений с помощью генерации с заданной температурой, в удивительных 79,4% случаев есть хотя бы один правильный ответ (pass@64).

Это расхождение подчеркивает способность LLM генерировать точные решения, но имеющие проблемы с различением между правильными и ошибочными ответами. Чтобы сократить эту разницу в результативности, исследователи исследуют три техники для настройки моделей:

  1. Последовательная настройка решения с пошаговым обучением (SSFT): В исследовании исследуется, могут ли предварительно обученные LLM получить пользу от метода пошагового обучения с учителем, направленного на предоставление техники начальной точки. Модели LLM настраиваются на выдачу полных решений и ответов.
  2. Переранжировка групповых решений (SCR): Эта техника направлена на совершенствование генератора в качестве оценщика решений для переранжировки кандидатов на решение. Исследователи представляют новый метод, который объединяет преимущества большинственного голосования с переранжировкой, осуществляя эффективную категоризацию кандидатских ответов на основе математической эквивалентности.
  3. Последовательная многозадачная настройка с обучением: Помимо оценки решений, исследование затрагивает повышение результативности моделей LLM в генерации решений. Путем формулирования задачи оценки решения как задачи генерации естественного языка исследователи стремятся использовать ее как ценное руководство для модели генерации решения, настраивая модель в три этапа.

Выводы исследования о PaLM 2-S и PaLM 2-L подчеркивают несколько ключевых моментов. Зависимость SSFT от правильно оформленных ответов. Качество и стиль пошаговых решений существенно влияют на улучшенную модель.

Эффективность переупорядочивания общих групп решений: Переупорядочивание только наиболее распространенных групп решений приводит к лучшей результативности и улучшенной вычислительной эффективности, представляя потенциальную стандартную практику для будущих исследований.

Выгоды двухзадачного обучения: Обучение модели как в генерации решений, так и в оценке задач демонстрирует улучшение результативности. Предложенная последовательная многозадачная настройка оказывается более эффективной для повышения модели генерации решения по сравнению только с обучением с учителем в области решения.