Познакомьтесь с Llemma математическая модель нового поколения на открытом языке, превосходящая текущие показатели

Познакомьтесь с математической моделью нового поколения Llemma на открытом языке, превосходящей текущие показатели

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-27-at-1.27.13-PM-1024×787.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-27-at-1.27.13-PM-150×150.png”/><p>Языковые модели, обученные на разнообразных смесях текста, обладают замечательной способностью общего понимания и генерации языка, служа базовыми моделями, адаптированными для широкого спектра применений.</p><p>В этом иследовании команда исследователей из Принстонского университета, EleutherAI, Университета Торонто, Векторного института, Университета Кембриджа, Карнеги-Меллонского университета и Университета Вашингтона разработали модель языка, специально предназначенную для математики. Они определили несколько мотивов для преследования этой цели. Во-первых, решение математических проблем требует способности различать шаблоны в большом корпусе специализированных знаний, что делает его идеальным контекстом для адаптации к домену. Во-вторых, математическое рассуждение само по себе представляет собой центральную задачу в области искусственного интеллекта и продолжает быть предметом современных исследований. В-третьих, развитие языковых моделей, способных к надежному математическому рассуждению, имеет более широкие импликации для различных областей исследований, включая моделирование вознаграждения, обучение с подкреплением для рассуждения в контексте и алгоритмическое рассуждение.</p><figure><img alt=”” src=”https://ai.miximages.com/lh7-us.googleusercontent.com/TpEnuEfrr3wiocX4YTG01Jo7eEY1AUKIH8KUUgwwQYpz-38-stTB_fo78AJ7jNvruTsKM-m4I-M5-hH1IPR8w1fdp_vWXSTlN-3H1XwUySPP1rrSHBNOh1QcwoZTgybE6OLrfTuo2l-tq5UjMpz473Y”/></figure><p>Вышеприведенное изображение демонстрирует Продолжающее предобучение на ProofPile-2 приводит к модели LLEMMA, базовой модели с улучшенными математическими возможностями. Вклад, внесенный авторами, заключается в следующем:</p><ul><li>Они обучили и сделали доступными модели LLEMMA, включающие языковые модели с 7 миллиардами и 34 миллиардами параметров, специально адаптированные для математических задач. Эти модели LLEMMA представляют собой новые передовые модели общедоступных базовых моделей для математики.</li></ul><ul><li>Они представили AlgebraicStack, набор данных, охватывающий 11 миллиардов токенов кода, тесно связанный с математическими контекстами.</li></ul><ul><li>Их исследование демонстрирует возможности моделей LLEMMA в использовании вычислительных инструментов для решения математических задач, включая интерпретатор Python и формальные теоремные доказатели.</li></ul><p>В отличие от ранее разрабатывавшихся математических языковых моделей, таких как Minerva (Lewkowycz et al., 2022), модели LLEMMA являются открытыми для доступа, и авторы сделали свои тренировочные данные и код открытыми исходниками. Это решение способствует роли LLEMMA как платформы для продвижения будущих исследований в области математического рассуждения.</p><p>Их работа расширяет проведенные в Minerva исследования, как описано Lewkowycz et al. (2022), с несколькими заметными отличиями:</p><p>(1) Их модель, LLEMMA, охватывает более широкий спектр данных и задач как во время обучения, так и при оценке. Это включает интеграцию кода, такого как AlgebraicStack, использование различных инструментов и вовлечение в формальные математические задачи.</p><p>(2) Подход авторов полностью основан на общедоступных инструментах и источниках данных.</p><p>(3) Введены новые анализы, касающиеся аспектов, таких как состав смеси тренировочных данных, шаблоны запоминания и дополнительная супервизированная настройка.</p><p>(4) Важно, что все артефакты, связанные с их работой, становятся общедоступными.</p><p>Исследователи ожидают, что LLEMMA и Proof-Pile-2 создадут прочную основу для будущих исследований. Эти ресурсы готовы поддержать исследовательские усилия в таких областях, как обобщение языковых моделей, анализ состава наборов данных, расширение специализированных языковых моделей, использование языковых моделей в качестве инструментов для математиков и усовершенствование математических возможностей языковых моделей.</p>