Phi-2 Разблокирован Языковые модели с компактным блеском

Phi-2 Разблокированы языковые модели с элегантным блеском

В последнем развитии, команда Microsoft Research по основам машинного обучения представила Phi-2, самое новое дополнение к их набору малых языковых моделей (SLM). Содержащий 2,7 миллиарда параметров, Phi-2 превосходит ожидания, демонстрируя непревзойденные возможности логического мышления и понимания языка в удивительно компактной структуре.

Расшифровка загадки Phi-2

Появление Phi-2 следует после успеха его предшественников, Phi-1 и Phi-1.5. Исследовательская команда разработала уникальный подход к масштабированию языковых моделей, демонстрирующий, что размер – это не все. Стратегическое сосредоточение на качестве обучающих данных и инновационных методах масштабирования позволяет Phi-2 не только соответствовать, но часто превосходить модели в 25 раз большего размера.

Качество превосходит количество

Ключевым моментом успеха Phi-2 является акцент команды на качестве обучающих данных. Следуя своему предыдущему исследованию “Учебники – всё, что вам нужно”, исследователи подобрали смесь синтетических данных и тщательно отобранных веб-данных, с целью внедрить здравый смысл и общие знания в модель. Тщательный подход к отбору данных открыл путь для выдающихся результатов Phi-2.

Инновационные методы масштабирования

Команда применила новый подход к передаче знаний, внедрив знания модели Phi-1.5 в Phi-2. Это не только ускорило сходимость обучения, но и продемонстрировало явный прирост производительности в оценочных показателях Phi-2. Этот инновационный метод масштабирования выделяет Phi-2, подтверждая мощь стратегического развития модели.

Обучение Phi-2

Phi-2, основанная на модели Transformer с целью предсказания следующего слова, прошла обучение на 1,4 трлн токенов из синтетических и веб-наборов данных. Впечатляет, что обучение заняло всего 14 дней на 96 GPU A100, демонстрируя эффективность и результативность. В отличие от некоторых аналогов, Phi-2 не прошла обучение с подкреплением от обратной связи от человека или инструктированной точной настройки, однако она проявляет превосходное поведение в отношении токсичности и предвзятости.

Триумф Phi-2 в процессе оценки

Мастерство Phi-2 явно проявляется в различных академических бенчмарках, превосходя более крупные модели, такие как Mistral и Llama-2. Впечатляет, что она прекрасно справляется с задачами многократного логического мышления, таких как программирование и математика, превосходя даже недавно представленную модель Google Gemini Nano 2, несмотря на ее меньший размер. Исследователи признают сложности в оценке модели, но стрессируют важность тестирования на конкретных сценариях использования, где Phi-2 постоянно демонстрирует свои возможности.

Наше мнение

Превосходные результаты Phi-2 оспаривают общепринятую мудрость о том, что большие модели всегда означают лучшие результаты. Его компактный размер открывает новые возможности для исследований и разработки, делая его идеальной площадкой для исследования механистической интерпретируемости, улучшения безопасности и экспериментов с точной настройкой в различных задачах. Команда Microsoft Research продолжает превосходить границы языковых моделей с помощью Phi-2, приглашая исследователей с новым энтузиазмом предаться будущему обработки естественного языка.

Phi-2 стоит в качестве подтверждения о неожиданной силе, заложенной в малых языковых моделях, открывая новую эру эффективности и результативности в сфере искусственного интеллекта и понимания языка.