Познакомьтесь с LQ-LoRA Вариант LoRA, который позволяет низкоранговую квантованную матричную декомпозицию для эффективной настройки языковых моделей.

Ознакомьтесь с LQ-LoRA эффективная настройка языковых моделей с помощью низкоранговой квантованной матричной декомпозиции

В быстроразвивающейся эпохе искусственного интеллекта вводятся большие языковые модели (LLM), которые изменяют способ взаимодействия машин и людей друг с другом. В последние месяцы наблюдается экспоненциальный рост количества разработанных LLM с невероятными возможностями и супер-продвинутыми алгоритмами. Модели, такие как GPT 3.5, GPT 4, LLaMa, PaLM и другие, показывают исключительные способности в имитации человека в понимании естественного языка (NLU), обработке, переводе, суммировании и даже генерации контента.

Эти LLM обучаются на огромных объемах данных. Однако возникает проблема, когда эти модели должны приспосабливаться к новым наборам данных. Исследователи обычно сталкиваются с проблемами при адаптации этих массовых LLM к новым наборам данных, так как полная донастройка требует значительных затрат и требований к памяти. Чтобы решить проблему эффективности памяти в LLM функции донастройки, недавно команда исследователей представила идею методов эффективной донастройки параметров.

С помощью изучения малого, точно настроенного расширения исходной предварительно обученной модели эти методы могут снизить объем памяти, необходимый для донастройки. Адаптация с низким рангом (LoRA), которая является популярной стратегией эффективной адаптации LLM, включает переопределение матрицы весов предварительно обученной модели и донастройку только двух ее компонентов, т.е. L1 и L2. Оставшиеся компоненты остаются неизменными.

Исследователи улучшили эффективность памяти по сравнению с LoRA, применив его к квантованной предварительно обученной модели. Чтобы сохранить память, квантование уменьшает точность параметров модели, и если квантование является значительным, инициализация нулем может быть не оптимальной. Чтобы преодолеть ошибку квантования, команда представила вариант LoRA под названием LQ-LoRA.

LQ-LoRA разбивает матрицу весов на квантованную составляющую, Q, и низкоразмерную составляющую, L1L2, с использованием итеративной техники, вдохновленной методом главных компонент (PCA). В LQ-LoRA L1 и L2 уточняются в процессе адаптации, и захватываются высоковариационные подпространства исходной матрицы весов.

Команда сообщила, что в этой работе используется метод целочисленного линейного программирования для поиска метода смешанного квантования, который решает проблему применения одной и той же конфигурации квантования ко всем слоям. Данный метод позволяет назначать различные конфигурации, включая количество битов и размер блока, каждой матрице при заданной общей желаемой скорости передачи данных.

Команда модифицировала модели RoBERTa и LLaMA-2 различных размеров, 7B и 70B, с помощью LQ-LoRA. Результаты показали, что LQ-LoRA работает лучше, чем GPTQ-LoRA и сильные базовые баллы QLoRA. Способность обучить модель LLaMA-2 со скоростью передачи данных 2.5 бита на базе бенчмарка OpenAssistant, которая конкурентоспособна с финально настроенной моделью с использованием 4-битного QLoRA, показывает, что предложенный подход позволяет более агрессивное квантование.

LQ-LoRA также продемонстрировала отличную производительность при сжатии модели после подстройки под языковую модель на калибровочных данных. Несмотря на уменьшение скорости передачи данных, команда смогла создать модель LLaMA-2-70B с количеством битов 2.75, которая является конкурентоспособной с оригинальной моделью с полной точностью. Это указывает на то, что предложенный метод может значительно снизить потребности в памяти больших языковых моделей, не жертвуя функциональностью для конкретных задач.

В заключение, LQ-LoRA является значительным прорывом в развитии языковых моделей. Ее методика эффективной адаптации памяти и учета данных в сочетании с динамической настройкой параметров квантования определенно может привести к смене парадигмы в области искусственного интеллекта.