Исследователи Microsoft представляют FP8 Mixed-Precision Training Framework усиление эффективности обучения больших моделей языка

Microsoft представляет FP8 Mixed-Precision Training Framework для повышения эффективности обучения больших моделей языка исследование

“`html

Большие языковые модели проявляют неслыханную грамотность в создании и понимании языка, что открывает путь для прогресса в логике, математике, физике и других областях. Однако обучение LLM является довольно дорогим. Для обучения модели объемом 540 млрд, например, необходимо 6 144 фишки TPUv4, в то время как для предварительного обучения GPT-3 175 млрд требуется несколько тысяч петафлопс-дней вычислений. Это подчеркивает необходимость снижения стоимости обучения LLM, особенно для масштабирования следующего поколения крайне интеллектуальных моделей. Один из самых многообещающих подходов для снижения затрат – это обучение низкой точности, которое предлагает быструю обработку, небольшое использование памяти и минимальные накладные расходы на связь. Большинство существующих систем обучения, таких как Megatron-LM, MetaSeq и Colossal-AI, обычно обучают LLM, используя смешанную точность FP16/BF16 или полную точность FP32.

Для больших моделей это является опциональным для достижения полной точности. FP8 становится прорывом в представлении низкой точности с приходом графических процессоров Nvidia H100. По сравнению с уже существующими 16-битными и 32-битными смешанными точностями с плавающей запятой, FP8 имеет потенциал теоретически добиться ускорения в 2 раза, сократить затраты на память на 50% – 75% и сэкономить расходы на связь на 50% – 75%. Эти результаты очень обнадеживают для масштабирования фондовых моделей следующего поколения. К сожалению, требуется больше и нечастая помощь для обучения FP8.

“`html

Фигура 1: Сравнение наибольших размеров моделей, которые можно достичь на кластере Nvidia H100 GPU с 80 ГБ ОЗУ при использовании нашего метода обучения FP8 смешанной точности по сравнению с более популярным методом BF16.

Более значительно, когда масштаб моделей увеличивается, как показано на рис. 1, экономия затрат, достигнутая с использованием низкой точности FP8, может быть дополнительно увеличена. Для лучшего соответствия предварительно обученных LLM-моделей конечным задачам и предпочтениям пользователей они используют FP8 смешанную точность для настройки инструкций и обучения с подкреплением с участием человека. В частности, они используют публично доступные данные по следованию инструкциям, предоставленные пользователями, для настройки предварительно обученных моделей. При получении 27% увеличения скорости обучения модели, адаптированные с использованием их FP8 смешанной точности, демонстрируют похожие результаты по сравнению с моделями, использующими половинную точность BF16 на AlpacaEval и MT-Bench бенчмарках. Кроме того, FP8 смешанная точность демонстрирует значительный потенциал в RLHF, процедуре, требующей загрузки множества моделей для тренировки.

Популярный RLHF фреймворк AlpacaFarm может достичь 46% снижения веса моделей и 62% сокращения использования памяти состояний оптимизатора при использовании FP8 во время обучения. Это еще больше показывает, насколько гибкая и адаптивная их архитектура низкой точности FP8 для обучения. Ниже приведены вклады, которые они вносят в развитие низкоточечного обучения FP8 для LLM-моделей в будущем. • Свежая платформа для смешанного обучения с точностью FP8. Ее использование просто и постепенно открывает возможность использования 8-битных весов, градиентов, оптимизатора и распределенного обучения. Текущие 16/32-битные аналоги этой 8-битной платформы могут легко быть заменены на эту, просто изменяя гипер-параметры и обучающие процедуры. Они также предоставляют реализацию для Pytorch, позволяющую использовать 8-битное обучение низкой точности всего несколькими строками кода.

Свежая серия моделей типа GPT, обученных с использованием FP8. Они демонстрируют возможности предлагаемой схемы FP8 на разных размерах моделей от 7 млрд. до 175 млрд. параметров, применяя ее к предварительному обучению и настройке моделей GPT. Они также предоставляют поддержку FP8 (тензор, конвейер и параллелизм последовательности) для популярных параллельных вычислительных парадигм, позволяя использовать FP8 для обучения масштабных базовых моделей. Первый кодовой базис для обучения GPT с использованием FP8, основанный на реализации Megatron-LM, становится общедоступным. Они предвидят, что внедрение их платформы FP8 установит новый стандарт для систем обучения низкой точности, ориентированных на крупные базовые модели в будущем поколении.