Познакомьтесь с AutoGPTQ простым пакетом квантования LLMs с удобными для пользователя API, основанным на алгоритме GPTQ.

Meet AutoGPTQ, a user-friendly API-based package for LLM quantization, based on the GPTQ algorithm.

Исследователи из Hugging Face представили инновационное решение для решения проблем, связанных с ресурсоемкими требованиями к обучению и развертыванию больших языковых моделей (LLM). Их новая интегрированная библиотека AutoGPTQ в экосистеме Transformers позволяет пользователям квантовать и выполнять LLM с использованием алгоритма GPTQ.

В обработке естественного языка LLM преобразовали различные области своей способностью понимать и генерировать текст, похожий на человеческий. Однако вычислительные требования для обучения и развертывания этих моделей представляют существенные преграды. Чтобы справиться с этим, исследователи интегрировали алгоритм GPTQ, технику квантования, в библиотеку AutoGPTQ. Это развитие позволяет пользователям выполнять модели с уменьшенной точностью бит – 8, 4, 3 или даже 2 бита – при сохранении незначительного снижения точности и сравнимой скорости вывода fp16 базовых значений, особенно для небольших размеров партий.

GPTQ, классифицируемый как метод пост-тренировочного квантования (PTQ), оптимизирует компромисс между эффективностью использования памяти и вычислительной скоростью. Он использует гибридную схему квантования, в которой веса модели квантуются как int4, а активации остаются в float16. Веса динамически деквантовываются во время вывода, и фактические вычисления выполняются в float16. Этот подход позволяет сэкономить память за счет объединения ядерного деквантования и потенциальных ускорений за счет сокращенного времени передачи данных.

Исследователи справились с проблемой слоевого сжатия в GPTQ, используя метод оптимального квантования мозга (OBQ). Они разработали оптимизации, которые упрощают алгоритм квантования, сохраняя при этом точность модели. По сравнению с традиционными методами PTQ, GPTQ продемонстрировал впечатляющие улучшения в эффективности квантования, сокращая время, необходимое для квантования больших моделей.

Интеграция с библиотекой AutoGPTQ упрощает процесс квантования, позволяя пользователям легко использовать GPTQ для различных архитектур трансформаторов. С поддержкой в библиотеке Transformers, пользователи могут квантовать модели без сложной настройки. Особенно следует отметить, что квантованные модели сохраняют свою сериализуемость и делимость на платформах, таких как Hugging Face Hub, что открывает возможности для более широкого доступа и сотрудничества.

Интеграция также распространяется на библиотеку Text-Generation-Inference (TGI), что позволяет эффективно развертывать модели GPTQ в производственных средах. Пользователи могут использовать динамическую партионизацию и другие передовые функции вместе с GPTQ для оптимального использования ресурсов.

Не смотря на значительные преимущества интеграции AutoGPTQ, исследователи признают возможность дальнейшего улучшения. Они выделяют потенциал для улучшения реализации ядер и исследования техник квантования, охватывающих веса и активации. В настоящее время интеграция сосредоточена на архитектурах только декодера или только кодера в LLM, что ограничивает ее применимость к определенным моделям.

В заключение, интеграция библиотеки AutoGPTQ в Transformers от Hugging Face решает проблемы ресурсоемкого обучения и развертывания LLM. Представление квантования GPTQ, предложенное исследователями, предлагает эффективное решение, которое оптимизирует потребление памяти и скорость вывода. Широкий охват интеграции и простой интерфейс для пользователя являются шагом к демократизации доступа к квантованным LLM на различных архитектурах GPU. По мере развития этой области, совместные усилия исследователей в сообществе машинного обучения обещают дальнейшие прогресс и инновации.