Познакомьтесь с LoftQ LoRA-Fine-Tuning-Aware Кодирование с учетом квантования для больших языковых моделей

Ознакомьтесь с кодированием LoftQ LoRA-Fine-Tuning-Aware, учитывающим квантование, для масштабных языковых моделей

Внедрение предварительно обученных языковых моделей (PLM) знаменует новую эру в области обработки естественного языка. Они продемонстрировали исключительную компетентность в широком спектре языковых задач, включая понимание (NLU) и генерацию (NLG) естественного языка. Эти модели обычно включают миллионы или даже миллиарды параметров, что требует значительных вычислительных и памятных ресурсов. Однако значительные требования PLM к вычислениям и памяти создают значительные проблемы, как признает научное сообщество.

В данной статье авторы представляют новую квантовую структуру, известную как LoRA-Fine-Tuning-aware Quantization (LoftQ). Эта структура специально разработана для предварительно обученных моделей, требующих квантования и LoRA-калибровки. Структура активно сочетает применение низкорангового приближения с квантованием для совместного приближения исходных высокоточных предварительно обученных весов.

На приведенном выше изображении продемонстрирована производительность QLoRA с разными битами. Слева: инициализация QLoRA для LLAMA-2-13b на WikiText-2. Справа: применение QLoRA к LLAMA-2-13b для языкового моделирования на WikiText-2. Меньшая оценка perplexity указывает на лучшую производительность.

Методы квантования. Мы применяем два метода квантования для демонстрации совместимости LoftQ с различными квантовыми функциями:

• Единое квантование – классический метод квантования. Он равномерно делит непрерывный интервал на 2N категорий и сохраняет локальное максимальное абсолютное значение для деквантования.

• НF4 и его 2-битовая модификация НF2 – методы квантования, используемые в QLoRA. Они предполагают, что значения с высокой точностью извлекаются из гауссового распределения и отображают эти значения на дискретные слоты с равной вероятностью.

Мы проводим 2-битовое и 4-битовое квантование для всех моделей, достигая коэффициентов сжатия 25-30% и 15-20% на уровне 4-битов и 2-битов соответственно. Все эксперименты проводятся на GPU NVIDIA A100.

Оценка их квантовой структуры проводится через обширные эксперименты на различных задачах, включая NLU, ответы на вопросы, краткое изложение и генерацию естественного языка. Результаты этих экспериментов показывают, что LoftQ последовательно превосходит QLoRA на всех уровнях точности. Например, с 4-битовым квантованием они достигают улучшения для Rouge-1 величиной 1,1 и 0,8 для XSum и CNN/DailyMail соответственно. По мере развития области NLP ожидается, что дальнейшие инновации и оптимизации помогут сузить разрыв между огромным потенциалом PLM и их практическим применением, что будет полезно для широкого круга приложений и пользователей.