Исследование искусственного интеллекта представляет Atom метод низкобитовой квантизации для эффективного и точного обслуживания больших языковых моделей (LLM).
Atom эффективное и точное обслуживание больших языковых моделей с помощью метода низкобитовой квантизации искусственного интеллекта. Исследование.
Крупные языковые модели (LLM) – это последнее достижение в сообществе искусственного интеллекта, которое взяло мир штурмом. Благодаря своим невероятным возможностям, эти модели используются всеми – исследователями, учеными и даже студентами. Благодаря своим возможностям имитации человека в ответах на вопросы, создания контента, резюмирования текста, завершения кодов и т. д., эти модели прошли долгий путь.
LLM необходимы во многих областях, включая анализ настроений, интеллектуальные чат-боты и создание контента. Эти модели используют много вычислительной мощности, поэтому для увеличения производительности эффективно используются ресурсы графических процессоров (GPU). Это достигается путем совмещения нескольких запросов пользователей и использования квантовых техник LLM для улучшения эффективности использования памяти и вычислительных возможностей. Однако существующие методы квантования, такие как 8-битное взвешивание и активация, не полностью используют возможности новых GPU. Поскольку целочисленные операторы в этих GPU являются 4-битными, текущие методы квантования не рассчитаны на максимальную эффективность.
Для решения этой проблемы исследовательская группа представила метод Atom, который максимизирует пропускную способность обслуживания LLM. Atom – это метод квантования с низким числом битов, созданный для значительного увеличения пропускной способности без потери точности. Он использует операторы с низким числом битов и квантование с низким числом битов для сокращения использования памяти. Метод использует особую комбинацию квантования с высокой точностью и с наперстковым квантованием для обеспечения отличной точности.
- Это исследование по искусственному интеллекту представляет прорывные методы по настройке языковых моделей для разработки микросхем.
- Исследователи из Университета Оксфорд представляют DynPoint алгоритм искусственного интеллекта, предназначенный для ускоренного синтеза новых видов для неограниченных монокулярных видео.
- Исследователи из Китая представляют ControlLLM искусственный интеллект, обеспечивающий возможность применения многомодальных инструментов для решения сложных задач реального мира большими языковыми моделями (LLMs).
Команда заявила, что Atom был оценен в конфигурациях квантования весов и активации с 4-битной точностью в процессе обслуживания. Результаты показали, что Atom позволяет сохранять латентность в том же диапазоне целей, одновременно увеличивая пропускную способность от начала до конца в 7,73 раза по сравнению с типичным подходом с 16-битными числами с плавающей точкой (FP16) и в 2,53 раза по сравнению с квантованием с 8-битными целыми числами (INT8). Это делает Atom приемлемым решением для удовлетворения растущего спроса на услуги, поскольку он поддерживает желаемый уровень времени отклика и значительно увеличивает скорость обработки запросов LLM.
Исследователи суммировали основные вклады следующим образом:
- Был проведен тщательный анализ обслуживания LLM в качестве первого шага в анализе эффективности исследования. Была выявлена важность использования подходов к квантованию веса и активации с низким числом битов.
- Был представлен уникальный и точный метод квантования веса и активации с низким числом битов, называемый Atom.
- Команда объяснила, что Atom использовал различные стратегии для гарантированного достижения пиковой производительности. Он использует смешанную точность для оставшихся ключевых активаций и весов с сохранением точности для первых. Для снижения ошибок в процессе квантования используется детализированное групповое квантование.
- Atom использует динамическое квантование активации, которое снижает ошибки квантования путем настройки под уникальное распределение каждого ввода. Для улучшения общей производительности метод также обрабатывает квантование кэша KV.
- В исследовании также была предложена интегрированная система долгосрочного обслуживания (LLM). Команда разработала эффективную систему вывода, создав низкоуровневые GPU-ядра и продемонстрировала полезную пропускную способность и латентность с помощью Atom в реальной среде.
- Была проведена полная оценка производительности Atom, которая показывает, что Atom значительно увеличивает пропускную способность LLM с возможностью увеличения до 7,7 раз за счет незначительной потери точности.