Исследователи из Принстонского университета представляют MeZO эффективный по памяти оптимизатор нулевого порядка, который может настроить крупномасштабные модели языка (LLM).

Исследователи из Принстонского университета представляют MeZO - оптимизатор для настройки крупномасштабных моделей языка (LLM), эффективный по памяти.

“`html

Большие языковые модели быстро развиваются с огромным успехом генеративного искусственного интеллекта за последние несколько месяцев. Эти модели вносят значительный вклад в некоторые замечательные экономические и социальные преобразования, лучшим примером которых является известный чат-бот ChatGPT, разработанный OpenAI, который имеет миллионы пользователей с момента его выпуска, и их число экспоненциально растет. Этот чат-бот, основанный на обработке естественного языка (NLP) и понимании естественного языка (NLU), позволяет пользователям генерировать осмысленный текст, подобный человеческому. Он осмысленно отвечает на вопросы, подводит итоги длинных абзацев, дополняет коды и электронные письма и т. д. Другие большие языковые модели, такие как PaLM, Chinchilla, BERT и т. д., также показали отличные результаты в области искусственного интеллекта.

Тонкая настройка предварительно обученных языковых моделей стала популярным подходом для многих задач, связанных с языком. Тонкая настройка позволяет этим моделям адаптироваться к специализированным областям, включать инструкции от человека и соответствовать индивидуальным предпочтениям. В основном она настраивает параметры уже обученной большой языковой модели с использованием небольшого и специализированного набора данных. По мере увеличения размера языковых моделей с более большим количеством параметров, тонкая настройка становится вычислительно требовательной и требует большого объема памяти для вычисления градиентов во время обратного распространения ошибки. Использование памяти значительно выше, чем необходимо для вывода, из-за использования кэширования активаций, градиентов и хранения истории градиентов.

Недавно команда исследователей из Принстонского университета представила решение проблемы с памятью. Называется оно MeZO – памяти-эффективный оптимизатор нулевого порядка, это адаптация традиционного метода ZO-SGD, который оценивает градиенты, используя только различия в значениях потерь и работает на месте, позволяя тонко настраивать языковые модели с той же занимаемой памятью, что и вывод. Команда сосредоточилась на нулевых подходах в MeZO, поскольку ZO-методы могут оценивать градиенты с помощью только двух прямых проходов, что делает их памяти-эффективными.

Алгоритм MeZO был специально разработан для оптимизации больших языковых моделей с миллиардами параметров. Некоторые из основных вкладов, упомянутых командой, включают:

  1. MeZO был разработан путем изменения метода ZO-SGD и нескольких вариаций для запуска на произвольных моделях произвольного размера с минимальными накладными расходами по памяти.
  1. MeZO совместим с PEFT и комплексными настройками параметров, такими как LoRA и настройкой префиксов.
  1. MeZO может улучшать недифференцируемые цели, такие как точность или F1-мера, при этом используя ту же самую память, что и вывод.
  1. Адекватное предварительное обучение обеспечивает зависимость скорости оптимизации на шаге MeZO и глобальной сходимости от конкретного числа условия ландшафта, то есть от эффективного локального ранга, а не от большого количества параметров, что противоречит предыдущим нижним оценкам ZO, которые подразумевают, что скорость сходимости может быть медленной в соответствии с количеством параметров.
  1. Эксперименты показали, что на тестах на различных типах моделей, таких как маскированный LM и авторегрессионный LM, модель масштабируется от 350 млн до 66 млрд и выполняет задачи вторичного уровня, такие как классификация, множественный выбор и генерация.
  1. MeZO превосходит нулевое обучение, ICL и линейное зондирование в экспериментах, и даже показывает лучшие или схожие результаты с тонкой настройкой в 7 из 11 тестов с OPT-13B, потребляя при этом около 12 меньше памяти, чем RoBERTa-large или обычная тонкая настройка, соответственно.

При оценке MeZO смог обучить модель с 30 миллиардами параметров с использованием одной видеокарты Nvidia A100 80GB, в то время как обратное распространение ошибки может обучить модель с 2,7 миллиардами параметров в рамках тех же ограничений памяти. В заключение, MeZO – это памяти-эффективный оптимизатор нулевого порядка, который может эффективно тонко настраивать большие языковые модели.

“`