Исследователи из Университета Калифорнии в Ирвайне (UCI) и Университета Чжэцзян (Zhejiang) представляют ускорение без потерь больших моделей языка с использованием самоуверенного декодирования с помощью стадий черновика и проверки.

Исследователи из Университета Калифорнии в Ирвайне (UCI) и Университета Чжэцзян (Zhejiang) представляют ускорение без потерь моделей языка с помощью самоуверенного декодирования.

Большие модели языка (LLM), основанные на трансформерах, таких как GPT, PaLM и LLaMA, широко используются в различных прикладных областях. Эти модели применяются для выполнения различных задач, включая генерацию текста, перевод и интерпретацию естественного языка. Однако высокие затраты на вывод этих моделей, особенно в ситуациях, где важна низкая задержка, являются серьезной проблемой. Авторегрессивный метод декодирования, используемый этими моделями, является основной причиной высоких затрат на вывод. Поскольку каждый выходной токен производится последовательно во время авторегрессивного декодирования, возникает много вызовов трансформера. Пропускная способность памяти каждого вызова трансформера ограничена, что приводит к неэффективным вычислениям и продолжительным временам выполнения.

Для ускорения процесса вывода больших моделей языка (LLM) в недавнем исследовании был представлен уникальный метод, называемый самоспекулятивным декодированием, который не требует вспомогательной модели. Этот подход позволяет более быстро генерировать вывод, сохраняя при этом качество. Он характеризуется двухэтапной процедурой, объединяющей черновик и проверку.

  1. Этап черновика – цель этапа черновика – быстрее порождать черновые токены, даже если они немного хуже качеством, чем токены, полученные с использованием традиционного авторегрессивного метода. Для этого метод обходит некоторые промежуточные слои во время черновика. Эти промежуточные слои в LLM часто улучшают вывод, но они также занимают много времени и ресурсов во время вывода. 
  1. Этап проверки: метод генерирует черновые токены вывода на этапе черновика, а затем проверяет их в одном прямом проходе с использованием оригинальной, неизмененной LLM. С использованием традиционного авторегрессивного метода декодирования LLM был бы получен тот же результат, что и в результате проверки. Благодаря этому даже если этап черновика генерирует токены быстрее, качество конечного продукта сохраняется.

Самоспекулятивное декодирование не требует дополнительного обучения нейронной сети, что является одним из его основных преимуществ. Обучение вспомогательных моделей или значительные изменения архитектуры LLM, которые могут быть сложными и требовательными к ресурсам, являются обычными компонентами существующих методов для ускорения вывода. Самоспекулятивное декодирование, с другой стороны, является «подключаемым» подходом, который можно добавить к существующим LLM без дополнительного обучения или изменений модели.

Исследование предложило эмпирическую поддержку для эффективности самоспекулятивного декодирования. Результаты тестов показаны с использованием LLaMA-2 и его улучшенных моделей. На основе этих тестов метод самоспекулятивного декодирования может декодировать данные до 1,73 раза быстрее, чем традиционный авторегрессивный метод. Это имеет важное преимущество, так как делает процесс вывода примерно в два раза быстрее, сохраняя качество вывода, что важно в ситуациях, когда задержка является проблемой.

В заключение, самоспекулятивное декодирование является революционным методом, который улучшает способность больших моделей языка к выводу информации. Он достигает этого, устанавливая двухэтапный процесс черновика и проверки, выбирая, какие слои пропустить во время черновика для более быстрой генерации токенов и проверяя качество вывода на этапе проверки. Этот метод ускоряет вывод LLM, не добавляя дополнительной нагрузки на память или требований к обучению нейронных сетей.