Команда исследователей из UC Беркли и Стэнфорда представляет S-LoRA искусственный интеллект, разработанный для масштабной обработки множества адаптеров LoRA

Исследователи из UC Беркли и Стэнфорда представляют S-LoRA - искусственный интеллект для эффективной обработки множества адаптеров LoRA

Команда исследователей из UC Berkeley и Stanford разработала новый метод параметрической настройки под названием Low-Rank Adaptation (LoRA) для развертывания LLMs. S-LoRA был разработан для обеспечения эффективного развертывания множества адаптеров LoRA. S-LoRA позволяет запускать тысячи адаптеров на одном графическом процессоре или на нескольких графических процессорах с минимальными накладными расходами. Метод вводит совместную пэйджинг для оптимизации использования памяти графического процессора, используя новые техники тензорного параллелизма и настраиваемых ядер CUDA для гетерогенной пакетной обработки. Эти техники значительно снижают вычислительные требования для развертывания LLMs в реальных приложениях.

LoRA – это высокоэффективная техника настройки для настройки заранее обученных LLMs на новые задачи, драматически сокращающая количество обучаемых параметров при сохранении высокой точности. LoRA широко используется, что приводит к созданию бесчисленного количества адаптеров LoRA для LLMs и моделей диффузии. В современных приложениях LLMs являются всеобъемлющими и обслуживают различные области и задачи.

Современные приложения широко используют LLMs, и метод предварительного обучения, а затем настройки, привел к созданию нескольких настроенных версий одной базовой LLM, каждая из которых настроена под конкретные задачи или области. LoRA – это параметрически эффективная техника настройки, которая настраивает заранее обученные LLMs для новых задач, существенно уменьшая количество обучаемых параметров при сохранении высокой точности.

S-LoRA использует LoRA для эффективной настройки базовой модели для широкого спектра задач, генерируя значительную коллекцию адаптеров LoRA из одной модели. Вводится Unified Paging, который оптимизирует использование памяти графического процессора путем управления динамическим весом адаптеров и тензорами KV кэша в единой памяти. S-LoRA позволяет обслуживать тысячи адаптеров LoRA с минимальными накладными расходами. Этот подход позволяет увеличить пропускную способность в четыре раза и существенно увеличить количество поддерживаемых адаптеров по сравнению с ведущими библиотеками, такими как HuggingFace PEFT и vLLM.

S-LoRA эффективно обрабатывает одновременно 2000 адаптеров с минимальными накладными расходами, при этом поддерживая низкие вычислительные затраты. Он превосходит vLLM-packed в несколько раз для нескольких адаптеров и до 30 раз по сравнению с PEFT, обеспечивая значительно большее количество адаптеров. S-LoRA превосходит свои варианты, такие как S-LoRA-bmm и S-LoRA-no-unifymem, по пропускной способности и задержке, что подчеркивает эффективность памятного пула и настраиваемых ядер. Масштабируемость системы прежде всего ограничена доступной основной памятью, что демонстрирует устойчивую производительность для рабочей нагрузки в реальных условиях. Впечатляющие возможности S-LoRA делают его мощным решением для адаптации больших языковых моделей для различных задач.

Исследование направлено на повышение производительности путем изучения возможностей оптимизации, таких как квантизация, разрежение и усовершенствование архитектур моделей. Оно исследует внедрение техник декомпозиции вычислений как для базовой модели, так и для адаптеров, а также разрабатывает настраиваемые ядра CUDA для повышенной поддержки. Внимание также уделяется решению вопросов авторегрессивных функций и параметрически эффективных адаптеров в обслуживании LLM, с целью идентификации и заполнения пробелов в оптимизации текущих систем обслуживания моделей.

В заключение, S-LoRA внедрил единую пэйджинг для борьбы с фрагментацией памяти, что привело к увеличению размеров пакета и улучшению масштабируемости в обслуживании. Исследование представляет масштабируемое решение для обслуживания LoRA, решая ранее неизученную проблему обслуживания крупномасштабных настроенных вариантов. Работа оптимизирует обслуживание LoRA с помощью алгоритмических техник, таких как квантизация, разрежение и усовершенствование архитектуры модели, дополняя улучшениями на уровне системы.