Исследование искусственного интеллекта представляет Atom метод низкобитовой квантизации для эффективного и точного обслуживания больших языковых моделей (LLM).

Atom эффективное и точное обслуживание больших языковых моделей с помощью метода низкобитовой квантизации искусственного интеллекта. Исследование.

Крупные языковые модели (LLM) – это последнее достижение в сообществе искусственного интеллекта, которое взяло мир штурмом. Благодаря своим невероятным возможностям, эти модели используются всеми – исследователями, учеными и даже студентами. Благодаря своим возможностям имитации человека в ответах на вопросы, создания контента, резюмирования текста, завершения кодов и т. д., эти модели прошли долгий путь.

LLM необходимы во многих областях, включая анализ настроений, интеллектуальные чат-боты и создание контента. Эти модели используют много вычислительной мощности, поэтому для увеличения производительности эффективно используются ресурсы графических процессоров (GPU). Это достигается путем совмещения нескольких запросов пользователей и использования квантовых техник LLM для улучшения эффективности использования памяти и вычислительных возможностей. Однако существующие методы квантования, такие как 8-битное взвешивание и активация, не полностью используют возможности новых GPU. Поскольку целочисленные операторы в этих GPU являются 4-битными, текущие методы квантования не рассчитаны на максимальную эффективность.

Для решения этой проблемы исследовательская группа представила метод Atom, который максимизирует пропускную способность обслуживания LLM. Atom – это метод квантования с низким числом битов, созданный для значительного увеличения пропускной способности без потери точности. Он использует операторы с низким числом битов и квантование с низким числом битов для сокращения использования памяти. Метод использует особую комбинацию квантования с высокой точностью и с наперстковым квантованием для обеспечения отличной точности.

Команда заявила, что Atom был оценен в конфигурациях квантования весов и активации с 4-битной точностью в процессе обслуживания. Результаты показали, что Atom позволяет сохранять латентность в том же диапазоне целей, одновременно увеличивая пропускную способность от начала до конца в 7,73 раза по сравнению с типичным подходом с 16-битными числами с плавающей точкой (FP16) и в 2,53 раза по сравнению с квантованием с 8-битными целыми числами (INT8). Это делает Atom приемлемым решением для удовлетворения растущего спроса на услуги, поскольку он поддерживает желаемый уровень времени отклика и значительно увеличивает скорость обработки запросов LLM.

Исследователи суммировали основные вклады следующим образом:

  1. Был проведен тщательный анализ обслуживания LLM в качестве первого шага в анализе эффективности исследования. Была выявлена важность использования подходов к квантованию веса и активации с низким числом битов.
  1. Был представлен уникальный и точный метод квантования веса и активации с низким числом битов, называемый Atom.
  1. Команда объяснила, что Atom использовал различные стратегии для гарантированного достижения пиковой производительности. Он использует смешанную точность для оставшихся ключевых активаций и весов с сохранением точности для первых. Для снижения ошибок в процессе квантования используется детализированное групповое квантование.
  1. Atom использует динамическое квантование активации, которое снижает ошибки квантования путем настройки под уникальное распределение каждого ввода. Для улучшения общей производительности метод также обрабатывает квантование кэша KV.
  1. В исследовании также была предложена интегрированная система долгосрочного обслуживания (LLM). Команда разработала эффективную систему вывода, создав низкоуровневые GPU-ядра и продемонстрировала полезную пропускную способность и латентность с помощью Atom в реальной среде.
  1. Была проведена полная оценка производительности Atom, которая показывает, что Atom значительно увеличивает пропускную способность LLM с возможностью увеличения до 7,7 раз за счет незначительной потери точности.