Эффективные небольшие языковые модели 1,3-миллиардный параметр phi-1.5 от Microsoft

Microsoft's efficient small language model, phi-1.5, has 1.3 billion parameters.

 

Когда вы подумали, что услышали достаточно новостей о больших языковых моделях (LLM), исследователи из Microsoft снова приходят на рынок. В июне 2023 года Microsoft Research выпустил документ под названием «Только учебники», где они представили модель phi-1 – новую большую языковую модель для кода. Модель phi-1 основана на трансформерах и содержит 1,3 миллиарда параметров. Ее обучение длилось 4 дня на 8 GPU A100, которые использовали выборку данных «уровня учебника» из веба.

Кажется, LLMs становятся все меньше и меньше.

 

Что такое phi-1.5?

  Теперь Microsoft Research представляет вам модель phi-1.5 – трансформер с 1,3 миллиарда параметров, которая была обучена на тех же источниках данных, что и модель phi-1. Как уже упоминалось выше, модель phi-1 была обучена на высококачественных учебных материалах, в то время как модель phi-1.5 была обучена только на синтетических данных. Для обучения модели phi-1.5 использовались 32 GPU A100-40G, и процесс обучения занял 8 дней. Целью создания модели phi-1.5 было создание открытой модели, которая может играть роль в научном сообществе, используя нерассекреченную небольшую модель, что позволяет исследовать различные проблемы безопасности с LLMs, такие как снижение токсичности, улучшение управляемости и т.д.

Благодаря применению метода генерации синтетических данных, производительность модели phi-1.5 эквивалентна моделям, в 5 раз большим по размеру, на тестах естественного языка, и она продемонстрировала более высокую производительность по сложным задачам рассуждения, чем большинство LLMs.

Впечатляюще, не правда ли? 

Путь обучения модели очень интересен. Она использует данные из различных источников, включая фрагменты кода на языке Python с StackOverflow, синтетические учебники по Python, а также упражнения, сгенерированные GPT-3.5-turbo-0301. 

 

Борьба с токсичностью и предубеждениями

  Одной из основных проблем с LLMs является токсичность и наличие предвзятого контента. Microsoft Research стремится преодолеть эту проблему вредного/оскорбительного контента и контента, который пропагандирует определенную идеологию.

Синтетические данные, использованные для обучения модели, генерируют ответы с меньшей вероятностью генерации токсичного контента по сравнению с другими LLMs, такими как Falcon-7B и Llama 2-7B, как показано на рисунке ниже:

 

 

Показатели

  На рисунке ниже показано, как модель phi-1.5 показала немного лучшие результаты по сравнению с современными моделями, такими как Llama 2-7B, Llama-7B и Falcon-RW-1.3B), на 3 показателях: рассуждение на основе здравого смысла, языковые навыки и многошаговое рассуждение.

   

Как это было сделано?

Использование учебникоподобных данных отличает использование таких данных в LLMs от данных, извлеченных из Интернета. Для дальнейшей оценки того, как модель справляется с токсичным контентом, был использован ToxiGen, а также было разработано 86 запросов, которые были вручную классифицированы как «прошли», «провалили» или «не поняли», чтобы лучше понять ограничения модели.

Сказанное выше означает, что модель phi-1.5 прошла 47 запросов, провалила 34 запроса и не поняла 4 запроса. Подход HumanEval для оценки моделей показывает, что phi-1.5 показала более высокие результаты по сравнению с другими известными моделями.

 

Основные выводы:

  Вот основные моменты, которые следует отметить относительно модели phi-1.5:

  • Основана на трансформерах
  • LLM, сфокусированная на предсказании следующего слова
  • Обучена на 30 миллиардах токенов
  • Использовались 32 GPU A100-40G
  • Была успешно обучена за 8 дней

    Nisha Arya – это дата-сайентист, фриланс-технический писатель и менеджер сообщества в VoAGI. Она особенно заинтересована в предоставлении советов по карьере в области науки о данных или обучающих материалов и теоретических знаний в области науки о данных. Она также хочет исследовать различные способы, которыми искусственный интеллект может быть полезен для продления человеческой жизни. Как активный ученик, она стремится расширить свои знания в области технологий и навыки письма, помогая при этом другим людям.