Команда Microsoft AI представляет Phi-2 небольшую языковую модель с 2,7 миллиарда параметров, демонстрирующую выдающуюся способность к рассуждению и пониманию языка.

Microsoft AI представляет Phi-2 мощную языковую модель с 2,7 млрд параметров, великолепно обладающую способностью к рассуждению и пониманию языка

Развитие моделей языка традиционно происходит на основе убеждения, что чем больше модель, тем больше ее возможности. Однако, нарушая установившуюся веру, исследователи команды по основам машинного обучения из Microsoft Research представили Phi-2, революционную языковую модель с 2,7 миллиардами параметров. Эта модель отступает от традиционных законов масштабирования, которые долгое время диктовали правила в этой области, подвергая сомнению широко распространенное представление о том, что размер модели является определяющим фактором ее обработки языка.

Это исследование освещает распространенное предположение о том, что превосходная производительность требует использования более крупных моделей. Исследователи представляют Phi-2 как парадигмальный сдвиг, отклоняясь от общепринятых стандартов. Статья освещает особенности Phi-2 и инновационные методы, применяемые при ее разработке. Отходя от традиционных подходов, Phi-2 полагается на тщательно отобранные высококачественные обучающие данные и использует передачу знаний от более маленьких моделей, представляя серьезный вызов установленным нормам масштабирования языковых моделей.

Основой методологии Phi-2 являются два ключевых аспекта. Во-первых, исследователи подчеркивают важную роль качества обучающих данных, используя “учебниковое качество” данных, тщательно разработанных для внедрения логического мышления, знаний и здравого смысла в модель. Во-вторых, используются инновационные техники, позволяющие эффективное масштабирование понимания модели, начиная с Phi-1.5 с 1,3 миллиардом параметров. В статье более подробно рассматривается архитектура Phi-2, основанная на трансформерной модели с целью предсказания следующего слова, которая обучается на синтетических и веб-датасетах. Существенным достоинством Phi-2 является то, что несмотря на свой небольшой размер, он превосходит более крупные модели на разных проверочных точках, подчеркивая его эффективность и впечатляющие возможности.

В заключение, исследователи из Microsoft Research представляют Phi-2 как совершенно новую силу в развитии языковых моделей. Эта модель не только вызывает сомнения, но и успешно опровергает долгое время принятую в отрасли веру в то, что возможности моделей неразрывно связаны с их размером. Этот парадигменный сдвиг способствует появлению новых перспектив и направлений в исследованиях, подчеркивая эффективность, которая может быть достигнута без жесткого следования традиционным правилам масштабирования. Уникальное сочетание высококачественных обучающих данных и инновационных методов масштабирования в Phi-2 является революционным шагом в обработке естественного языка, обещающим новые возможности и безопасные языковые модели для будущего.

Пост Microsoft AI Team Introduces Phi-2: A 2.7B Parameter Small Language Model that Demonstrates Outstanding Reasoning and Language Understanding Capabilities появился первоначально на MarkTechPost.