Исследователи AWS представляют Gemini инновационная быстрая восстановление после ошибок в масштабировании тренировки глубокого обучения

Новый прорыв от исследователей AWS Gemini - инновационное быстрое восстановление после ошибок в процессе масштабирования тренировок глубокого обучения

Команда исследователей из Rice University и Amazon Web Services разработала распределенную систему обучения под названием GEMINI, которая направлена на улучшение восстановления при сбоях в обучении больших моделей машинного обучения. Система справляется с вызовами, связанными с использованием памяти CPU для контрольных точек, что обеспечивает большую доступность и минимизирует вмешательство в процесс обучения. GEMINI показал значительное улучшение по сравнению с существующими решениями, что делает его многообещающим прорывом в области обучения глубоких моделей масштаба.

GEMINI представил распределенную систему обучения для улучшения процесса восстановления в обучении больших моделей. Предыдущие решения были ограничены пропускной способностью и ограничениями хранения, что влияло на частоту контрольных точек и точность модели, несмотря на предложение интерфейсов контрольных точек со стороны фреймворков глубокого обучения, таких как PyTorch и TensorFlow. Подход GEMINI оптимизирует размещение контрольных точек и планирование трафика, что делает его ценным прорывом в этой области.

Модели глубокого обучения, особенно большие, были признаны благодаря своей впечатляющей производительности. Однако обучение больших моделей часто требует улучшения из-за сложности и затрат времени. Существующие решения для восстановления при сбоях в обучении больших моделей страдают от ограниченной пропускной способности удаленного хранилища, что приводит к значительным затратам на восстановление. GEMINI представил инновационные методики использования памяти CPU, которые обеспечивают быстрое восстановление при сбоях. Стратегии GEMINI для оптимального размещения контрольных точек и планирования трафика позволяют существенно ускорить процесс восстановления при сбоях по сравнению с существующими решениями. Он внес значительный вклад в области глубокого обучения.

GEMINI построен на базе Deep-Speed, используя настройку ZeRO-3 для распределенного обучения. Для управления состояниями моделей GPU используются группы автоматического масштабирования Amazon EC2. Контрольные точки сохраняются как в памяти CPU, так и в удаленном хранилище с частотой контрольных точек в три часа. GEMINI использует стратегию почти оптимального размещения контрольных точек для максимизации вероятности восстановления и алгоритм планирования трафика для снижения вмешательства. Оценка производится на графических процессорах NVIDIA, но применима и к другим ускорителям, таким как AWS Trainium.

GEMINI значительно улучшает восстановление при сбоях, превосходящее существующие решения более чем в 13 раз. Результаты оценки подтверждают его эффективность в сокращении времени потерь без ущерба для пропускной способности обучения. Масштабируемость GEMINI видна на различных частотах сбоев и масштабах обучения, что подтверждает его потенциал для распределенного обучения большого масштаба. Алгоритм периодического переключения трафика в GEMINI положительно влияет на пропускную способность обучения, дополнительно улучшая эффективность системы.

Существующие решения для восстановления при сбоях в обучении больших моделей ограничены пропускной способностью удаленного хранилища, что препятствует высокой частоте контрольных точек и приводит к значительным потерям времени. В данном исследовании рассматриваются статическое и синхронное обучение с фиксированными вычислительными ресурсами, не учитывая эластичные и асинхронные методы обучения. Вопрос размера памяти CPU для хранения истории контрольных точек для целей, отличных от восстановления при сбоях, не рассматривается в данном исследовании.

В заключение, GEMINI – это эффективная и масштабируемая распределенная система обучения, которая обеспечивает быстрое и надежное восстановление при сбоях благодаря контрольным точкам в память CPU и продвинутой стратегии размещения. Высокие частоты контрольных точек помогают сократить потерю времени без ущерба для пропускной способности обучения, что делает его отличным решением для распределенного обучения масштаба на кластерах с GPU.