Эта научная статья AI представляет концепцию обучения на ошибках (LeMa) улучшение математического мышления в больших языковых моделях через ошибку-ориентированное обучение.

Статья о применении концепции обучения на ошибках (LeMa) для улучшения математического мышления в больших языковых моделях с помощью ошибко-ориентированного обучения AI.

Человеческие существа, как непреклонные создания, путешествуют по запутанному пути жизни, отмеченному успехами и неудачами. В грандиозной гармонии нашего существования, нить ошибок ткает уникальный узор, в значительной степени способствующий нашему росту и развитию. Учение на примерах ошибок является фундаментальной частью человеческого опыта, формируя наш характер, способствуя нашей устойчивости и побуждая нас к более просвещенному будущему.

Могут ли LLM также учиться на ошибках? Возможно ли это? Да, они могут. Большие языковые модели, такие как GPT-3, учатся на огромных объемах данных, включая примеры правильного и неправильного использования языка. Эти модели обучаются на разнородных наборах данных, содержащих широкий спектр текста из интернета, книг, статей и многого другого. Модель научится распознавать шаблоны, взаимосвязи и контекстуальную информацию, содержащуюся в обучающих данных. Она понимает грамматику, синтаксис, семантику, а также нюансы использования языка.

Имитируя этот процесс обучения на ошибках, исследователи из Университета Цзяотун, Пекинского университета и Microsoft представляют LEMA, который настройте подкорректированные LLM на данных пар ошибка-исправление, созданных GPT-4. Они говорят, что их идея обучения на ошибках пришла из учебного процесса людей студентов.

Их метод заключается в создании данных пар ошибок-исправлений, а затем в настройке подкорректированных LLM с использованием данных исправлений. Они используют несколько LLM, таких как LLaMA и модели серии GPT, чтобы собрать неточные пути рассуждения и сгенерировать данные исправления. Сгенерированные исправления содержат три части информации о неправильном шаге в исходном решении, объяснение, почему этот шаг неправильный, и как исправить исходное решение, чтобы получить правильный ответ.

Они отфильтровывают исправления с неправильными конечными ответами, и они говорят, что этот процесс обладает достаточным качеством для последующего этапа точной настройки. Они генерируют больше путей рассуждения для каждого вопроса в наборе обучающих данных с помощью GPT-4 и фильтруют пути с неправильными конечными ответами. Они применяют эту аугментацию данных CoT для создания прочной базовой точной настройки, которая использует только данные CoT. Это также облегчает дальнейшее исследование относительно контроля размера данных для точной настройки. Они точно настраивают модель только на базе данных ответов на вопросы.

По сравнению с точной настройкой только на данных CoT, LEMA последовательно улучшает производительность в различных LLM и задачах. LEMA с LLaMA-2-70B достигает показателя 83,5% на GSM8K и 25,0% на MATH, в то время как точная настройка только на данных CoT дает 81,4% и 23,6%, соответственно.

Современные достижения в области LLM позволяют им выполнять пошаговый подход к решению проблем. Однако этот многоэтапный процесс генерации не подразумевает наличие у LLM сильных рассуждающих способностей, так как они могут лишь эмулировать поверхностное поведение рассуждений человека без истинного понимания логики и правил, необходимых для точной обоснованности. LEMA использует GPT-4 в качестве мировой модели для обучения более маленьких моделей следовать логике и правилам, а не просто имитировать шаг за шагом человеческое поведение.