Познакомьтесь с EAGLE новым методом машинного обучения для быстрого декодирования LLM на основе сжатия

Изучите EAGLE - новый метод машинного обучения для быстрого расшифровки LLM на основе сжатия

Большие языковые модели (LLM), такие как ChatGPT, революционизировали обработку естественного языка, продемонстрировав свою мощь в различных языковых задачах. Однако эти модели имеют проблему – авторегрессивный процесс декодирования, в котором каждый токен требует полного прямого прохода. Эта вычислительная узкая точка особенно ярко проявляется в LLM с обширными наборами параметров, затрудняя реальное время работы и представляя вызовы для пользователей с ограниченными возможностями GPU.

Команда исследователей из Vector Institute, University of Waterloo и Peking University представила EAGLE (алгоритм экстраполяции для повышения эффективности языковой модели) для борьбы с проблемами, связанными с декодированием LLM. Отклоняясь от традиционных методов, представленных Medusa и Lookahead, EAGLE применяет уникальный подход, сосредотачиваясь на экстраполяции векторов контекстных признаков второго верхнего слоя. В отличие от своих предшественников, EAGLE стремится предсказать последующие векторы признаков эффективно, предлагая прорыв, значительно ускоряющий генерацию текста.

В основе методологии EAGLE лежит использование легкого плагина под названием FeatExtrapolator. Обученный в сочетании с замороженным слоем встроенных функций в оригинальной LLM, этот плагин предсказывает следующий признак на основе текущей последовательности признаков из второго верхнего слоя. Теоретическим основанием EAGLE является сжимаемость векторов признаков со временем, что облегчает экспедитированную генерацию токенов. Необходимо отметить выдающиеся показатели производительности EAGLE; он обеспечивает увеличение скорости в три раза по сравнению с обычным декодированием, удваивает скорость Lookahead и достигает ускорения в 1,6 раза по сравнению с Medusa. Возможно, самое важное, он поддерживает согласованность с обычным декодированием, обеспечивая сохранение распределения сгенерированного текста.

https://sites.google.com/view/eagle-llm

Возможности EAGLE выходят за рамки его возможностей по ускорению. Он может тренироваться и тестироваться на стандартных графических процессорах (GPU), что делает его доступным для более широкого круга пользователей. Его безупречная интеграция с различными параллельными техниками расширяет его применение и укрепляет его позицию как ценное дополнение для эффективного расшифровки языковой модели.

Обратите внимание на зависимость метода от FeatExtrapolator, легкого, но мощного инструмента, который сотрудничает с замороженным слоем встроенных функций оригинальной LLM. Это сотрудничество предсказывает следующий признак на основе текущей последовательности признаков второго верхнего слоя. Теоретическим основанием EAGLE является сжимаемость векторов признаков со временем, что облегчает более гладкий процесс генерации токенов.

https://sites.google.com/view/eagle-llm

В то время как традиционные методы декодирования требуют полного прямого прохода для каждого токена, экстраполяция на уровне признаков от EAGLE предлагает новый подход для преодоления этой проблемы. Теоретическое исследование исследовательской команды приводит к методу, который не только значительно ускоряет генерацию текста, но и поддерживает целостность распределения созданных текстов – критический аспект для сохранения качества и связности вывода языковой модели.

https://sites.google.com/view/eagle-llm

В заключение, EAGLE всплывает как маяк надежды в решении долговечных неэффективностей декодирования LLM. Изобретательно приступая к основной проблеме авторегрессивного поколения, исследовательская команда EAGLE представляет метод, который не только радикально ускоряет генерацию текста, но и поддерживает согласованность распределения. В эпоху, когда требуется обработка естественного языка в режиме реального времени, инновационный подход EAGLE позиционирует его как лидера, совмещая передовые возможности и практические приложения в реальном мире.