Исследователи Intel предлагают новый подход к использованию LLM на процессорах для искусственного интеллекта с большей эффективностью.

Новый подход в использовании LLM на процессорах от Intel для повышения эффективности искусственного интеллекта

Большие языковые модели (LLM) завоевали мир своей замечательной производительностью и потенциалом в различных областях. Их лучше всего знают по их способностям к генерации текста, пониманию языка, краткому изложению текста и многому другому. Однако недостатком их широкого применения является огромный размер параметров модели, который требует значительной памяти и специализированного оборудования для вывода. Это создает значительные трудности в развертывании этих моделей.

Один из способов снизить вычислительную мощность, необходимую для вывода, – использовать методы квантования, то есть снизить точность весов и функций активации искусственной нейронной сети. INT8 и квантование только весов – это несколько способов улучшения затрат на вывод. Однако эти методы обычно оптимизированы для CUDA и, возможно, не подходят для ЦП.

Авторы этой научной работы от Intel предложили эффективный способ эффективного развертывания LLM на ЦП. Их подход поддерживает автоматическое квантование только весов INT-4 (низкая точность применяется только к весам модели, в то время как функции активации остаются высокими). Они также разработали специальную среду выполнения LLM, которая имеет оптимизированные ядра, ускоряющие процесс вывода на ЦП.

Поток квантования разработан на основе интеллектуального нейрокомпрессора Intel и позволяет настраивать различные рецепты квантования, степени детализации и размеры групп для создания модели INT4, отвечающей целевой точности. Затем модель передается в среду выполнения LLM, специализированную среду, предназначенную для оценки производительности квантованной модели. Эта среда выполнения разработана для обеспечения эффективного вывода LLM на ЦП.

Для своих экспериментов исследователи выбрали несколько популярных LLM с различными размерами параметров (от 7B до 20B). Они оценили производительность моделей FP32 и INT4 с использованием открытых наборов данных. Они обнаружили, что точность квантованной модели на выбранных наборах данных почти равна точности модели FP32. Кроме того, они провели сравнительный анализ задержки генерации следующего токена и обнаружили, что среда выполнения LLM превосходит решение, основанное на GGML, на 1,6 раза.

В заключение данная научная работа представляет решение одной из наиболее серьезных проблем, связанных с LLM, а именно вывод на ЦП. Традиционно для работы с этими моделями требуется специализированное оборудование, такое как GPU, что делает их недоступными для многих организаций. В данной работе представлено квантование модели INT4 вместе с специализированной средой выполнения LLM, чтобы обеспечить эффективный вывод LLM на ЦП. При оценке на наборе популярных LLM, данный метод продемонстрировал преимущество перед решениями, основанными на GGML, и показал точность, сравнимую с моделями FP32. Тем не менее, есть возможность для дальнейшего улучшения, и исследователи планируют дать возможность компьютерам на основе искусственного интеллекта удовлетворить растущие потребности в AI-сгенерированных материалах.