Хитрость, чтобы сделать LLaMa помещается в ваш карман знакомьтесь с OmniQuant, методом искусственного интеллекта, который соединяет эффективность и производительность LLMs.

LLaMa помещается в ваш карман с OmniQuant - методом искусственного интеллекта, объединяющим эффективность и производительность LLMs.

Большие языковые модели (LLMs), такие как печально известный ChatGPT, достигли впечатляющих результатов в различных задачах обработки естественного языка, таких как машинный перевод, краткое изложение текста и вопросно-ответная система. Они изменили способ взаимодействия с компьютерами и выполнения задач.

LLMs стали преобразовательными сущностями, расширяющими границы понимания и генерации естественного языка. Среди них ChatGPT является замечательным примером, представляющим класс LLMs, разработанных для взаимодействия с пользователями в контексте беседы. Эти модели являются результатом обширного обучения на огромных наборах текстовых данных. Это дает им способность понимать и генерировать текст, похожий на человеческий.

Однако эти модели требуют высоких вычислительных ресурсов и памяти, что ограничивает их практическое применение. Как следует из названия, эти модели большие; когда мы говорим “большие”, мы имеем в виду это. Самая последняя открытая LLM, LLaMa2 от Meta, содержит около 70 миллиардов параметров.

Уменьшение этих требований является важным шагом для их более практического использования. Квантизация является многообещающей техникой для снижения вычислительных и памятных накладных расходов LLMs. Существуют два основных способа квантизации – квантизация после обучения (PTQ) и обучение с квантизацией в учете (QAT). В то время как QAT обеспечивает конкурентоспособную точность, она является чрезвычайно затратной с точки зрения вычислений и времени. Поэтому PTQ стал основным методом для многих усилий по квантизации.

Существующие техники PTQ, такие как квантизация только весов и активаций, достигли значительного снижения потребления памяти и вычислительных накладных расходов. Однако они испытывают затруднения с низкобитной квантизацией, которая является важной для эффективного развертывания. Это снижение производительности при низкобитной квантизации в основном обусловлено использованием заданных вручную параметров квантизации, что приводит к субоптимальным результатам.

Познакомимся с OmniQuant. Это новая техника квантизации для LLMs, которая достигает передовых результатов в различных сценариях квантизации, особенно в низкобитных настройках, сохраняя при этом время и эффективность данных PTQ.

Характеристики OmniQuant на семействе LLaMa. Источник: https://arxiv.org/pdf/2308.13137.pdf

OmniQuant использует уникальный подход, заключающийся в зафиксировании оригинальных весов полной точности и включении ограниченного набора обучаемых параметров квантизации. В отличие от QAT, который включает громоздкую оптимизацию весов, OmniQuant фокусируется на отдельных слоях в последовательном процессе квантизации. Это позволяет эффективно оптимизировать с использованием простых алгоритмов.

OmniQuant состоит из двух важных компонентов – обучаемой обрезки весов (LWC) и обучаемого эквивалентного преобразования (LET). LWC оптимизирует порог обрезки, регулируя значение экстремальных весов, в то время как LET решает проблему выбросов активации, изучая эквивалентные преобразования внутри кодировщика-трансформатора. Эти компоненты делают веса полной точности и активации более подходящими для квантизации.

Гибкость OmniQuant проявляется в его универсальности, обеспечивая как квантизацию только весов, так и активаций. Лучшая часть заключается в том, что OmniQuant не вводит дополнительной вычислительной нагрузки или параметров для квантизированной модели, так как параметры квантизации могут быть объединены с квантизированными весами.

Обзор OmniQuant. Источник: https://arxiv.org/pdf/2308.13137.pdf

Вместо совместной оптимизации всех параметров в LLM, OmniQuant последовательно квантифицирует параметры одного слоя перед переходом к следующему. Это позволяет OmniQuant эффективно оптимизировать с использованием простого стохастического градиентного спуска (SGD).

Это практическая модель, так как ее довольно легко реализовать даже на одном графическом процессоре. Вы можете обучить свою собственную LLM за 16 часов, что делает их действительно доступными в различных реальных приложениях. Кроме того, вы не жертвуете производительностью, так как OmniQuant превосходит предыдущие методы на основе PTQ.

Однако это все еще относительно новый метод, и есть некоторые ограничения его производительности. Например, иногда он может давать немного худшие результаты, чем модели с полной точностью. Однако это незначительное неудобство OmniQuant, так как это все еще многообещающая техника для эффективного развертывания LLM.