Умная и компактная машина будущего DejaVu сокращает расходы на общение ИИ, не теряя ни капли своей хитрости.

ДеяВю умная и компактная машина будущего, экономящая расходы на ИИ и оставаясь хитрой на все 100%

Тренировка большой языковой модели требует значительных вычислительных ресурсов, включая мощные графические процессоры и тензорные процессоры, а также специализированное оборудование, такое как ускорители ИИ. Эти ресурсы могут быть дорогими для приобретения и поддержки. Сбор и подготовка огромного объема данных, необходимых для обучения больших языковых моделей, могут быть затратным и времязатратным процессом. Высококачественные, разнообразные и представительные наборы данных являются важными для производительности модели.

Тренировка больших языковых моделей может занимать недели или даже месяцы, в зависимости от их размера и сложности. Разреженность является естественным подходом для снижения этих затрат. Существующие методы требуют дорогостоящей повторной тренировки или не обеспечивают ускорение процесса с точки зрения затрат времени на современном оборудовании. Исследователи разработали новый набор индивидуальных параметров внимания и MLP, зависящих от входных данных, которые дают примерно тот же вывод, что и плотные модели на данном входе, но на более длительный срок.

Они предполагают, что существует контекстная разреженность и когда она предсказывается точно, она может ускорить вывод LLM в реальном времени без ущерба качеству или способности к изучению в контексте. Они предлагают систему “DEJAVU”, которая использует недорогостоящий алгоритм для предсказания контекстной разреженности по мере поступления входных данных к каждому слою, вместе с асинхронной и аппаратной реализацией, ускоряющей вывод LLM.

Даже если контекстная разреженность существует, сложно предсказать разреженность для заданного входа заранее. Проверка существования такой контекстной разреженности является нетривиальной задачей, а наивная проверка может быть чрезмерно затратной. Также может быть сложно достичь ускорения в режиме реального времени от начала и до конца. Команда проверила существование такой разреженности с помощью простого подхода. Контекстная разреженность зависит не только от отдельных токенов ввода, но и от их взаимодействий. Только с эмбеддингами токенов с достаточной контекстной информацией они достоверно предсказывают разреженность.

Контекстная разреженность в блоке MLP может быть определена после вычисления активации. Однако это только демонстрирует существование контекстной разреженности, но не приносит выгоды в плане эффективности. Для использования контекстной разреженности для достижения от начала и до конца эффективности необходимы быстрые и точные прогнозы.

DEJAVU использует предсказатели просмотра вперед, чтобы избежать затрат на предсказание. По мере передачи входных данных на слое внимания в блоке k они асинхронно предсказывают контекстную разреженность для MLP в блоке k и предоставляют информацию MLP в блоке k. Затем они предсказывают разреженность для слоя внимания на следующем уровне. Они также утверждают, что контекстную разреженность можно точно предсказать с помощью легковесных алгоритмов на основе обучения.

Исследователи обнаружили, что DEJAVU достигает более чем в два раза сокращения задержки генерации токенов по сравнению с новейшей FasterTransformer и более чем в шесть раз по сравнению с Hugging Face без потери точности. Предсказатель разреженности MLP не вводит потери точности как для нулевых задач, так и для языкового моделирования. В ходе обучения предсказателя разреженности MLP было замечено, что предсказатель разреженности достигает высокой точности валидации.