Исследователи из Корнельского университета представляют метод квантования с использованием несогласованной обработки (QuIP) новый метод искусственного интеллекта, основанный на представлении о том, что квантование выгодно при использовании несогласованных матриц весов и матриц Гессе.

Исследователи из Корнельского университета представляют метод квантования с использованием несогласованной обработки (QuIP) - новый метод искусственного интеллекта, основанный на использовании несогласованных матриц весов и матриц Гессе.

Улучшения в таких областях, как создание текстов, обучение на небольшом наборе примеров, рассуждение и моделирование последовательности белка, стали возможными благодаря большим языковым моделям (LLM). Из-за их огромного масштаба эти модели могут иметь сотни миллиардов параметров, что требует сложных стратегий развертывания и вдохновляет исследования по разработке эффективных техник вывода.

Новые исследования Корнеллского университета осуществляют квантование параметров LLM после обучения для повышения производительности в реальных сценариях. Их ключевое открытие заключается в том, что проще адаптивно округлять веса до конечного набора сжатых значений, когда матрицы весов и прокси-матрицы Гессе несогласованны. Интуитивно это происходит потому, что как сами веса, так и направления, в которых важна точность округления, не слишком велики в каждой координате.

Используя это открытие, исследователи создают двухбитные методы квантования, которые являются как теоретически обоснованными, так и масштабируемыми для моделей размером LLM. Исходя из этого, они предлагают новую технику, называемую квантование с обработкой несогласованности (QuIP).

QuIP состоит из двух этапов:

  1. Эффективная предварительная и послепроцессинговая обработка, которая обеспечивает несогласованность матриц Гессе путем их умножения на кронекерово произведение случайных ортогональных матриц.
  2. Адаптивная процедура округления, которая минимизирует квадратичный прокси-целевой функционал ошибки между исходными весами и квантованными весами с использованием оценки Гессиана. “Обработка несогласованности” относится как к начальной фазе обработки, так и к конечной фазе обработки, предложенной методом.

Помимо практической реализации, они представляют теоретическое исследование, первое своего рода для алгоритма квантования, масштабирующегося для моделей размером LLM, изучают влияние несогласованности и демонстрируют превосходство процедуры квантования по отношению к широкой категории методов округления. Это исследование также представляет первый теоретический анализ для OPTQ, предыдущего метода, показывая, что QuIP без обработки несогласованности обеспечивает более эффективную реализацию этого метода.

Экспериментальные результаты показывают, что обработка несогласованности значительно улучшает квантование больших моделей, особенно при более высоких степенях сжатия, и позволяет получить первый подход к квантованию LLM, обеспечивающий пригодные результаты с использованием только двух бит на вес. Наблюдаются небольшие разрывы между сжатием на 2 бита и 4 бита для больших размеров LLM (>2 млрд. параметров), и эти разрывы сокращаются с увеличением размера модели, что указывает на возможность точного вывода на 2 бита в LLM.

Прокси-целевая функция не учитывает взаимодействия между блоками трансформера или даже между слоями внутри блока. Команда отмечает, что выгоды от включения таких взаимодействий при таком масштабе и то, стоит ли затраты на вычисления, до сих пор неизвестны.