Исследователи компании Apple представляют метод Parallel Speculative Sampling (PaSS) рывок в эффективности и масштабируемости языковых моделей.

Исследователи компании Apple представляют PaSS революционный метод параллельного спекулятивного сэмплирования для повышения эффективности и масштабируемости языковых моделей.

Исследователи EPFL совместно с Apple представили новый подход к спекулятивной выборке, называемый параллельной спекулятивной выборкой (PaSS). Этот новый подход позволяет одновременно создавать несколько токенов с использованием единой модели, объединяя преимущества авторегрессионного поколения и спекулятивной выборки. Метод PaSS был оценен в задачах завершения текста и кода, показав многообещающую производительность без ущерба для качества модели. Команда также исследовала влияние количества внедрений просмотра на подход, обнаружив оптимальное число для достижения лучших результатов.

PaSS решает ограничения спекулятивной выборки, требующей двух моделей с одним и тем же токенизатором, позволяя одновременно создавать несколько токенов с помощью одной модели. Сравнительные оценки с авторегрессионным поколением и базовым методом демонстрируют высокую скорость и производительность PaSS. Тестирование в задачах завершения текста и кода дает многообещающие результаты без ущерба для общего качества модели. Он также исследует влияние схем выборки и внедрений просмотра на производительность PaSS.

Большие языковые модели ограничены в обработке естественного языка из-за авторегрессивного поколения, требующего передачи для каждого созданного токена и влияющего на доступ к памяти и время обработки. Спекулятивная выборка предлагает решение, но требует двух моделей с одним и тем же токенизатором, что вызывает проблемы. PaSS является альтернативой, позволяющей создавать несколько токенов с помощью одной модели и исключая необходимость во второй модели.

Предлагаемый метод использует параллельное декодирование, которое исключает необходимость во второй модели и включает две фазы: создание и проверку. Во время фазы создания модель одновременно создает несколько токенов с использованием параллельного декодирования, при этом первый токен исключается из проекта для соответствия распределению в случае отклонения. Такой подход достигает высокой скорости и производительности, сохраняя общее качество модели.

Метод PaSS оказался эффективным способом создания языковых моделей со значительным ускорением до 30% по сравнению с авторегрессионным поколением, при сохранении производительности модели в пределах погрешности. PaSS также показал способность создавать токены с меньшей дисперсией и большей предсказуемостью, что демонстрируется в сравнении с базовыми вариантами, использующими различные схемы выборки. Исследование также показало, что количество шагов предварительного просмотра стабильно влияет на производительность PaSS, с уменьшением времени работы до 6 шагов предварительного просмотра.

PaSS – мощная методика генерации языковых моделей, которая использует параллельный подход к созданию токенов с применением настроенных внедрений предварительного просмотра. Его эффективность в создании токенов с низкой дисперсией и высокой предсказуемостью была доказана при оценке задач завершения текста и кода. Продолжается работа над улучшением производительности с помощью внедрений предварительного просмотра.

Дальнейшие направления исследований рекомендуют исследование методов улучшения качества параллельного создания с использованием токенов предварительного просмотра, рассматривая это как перспективную область для улучшения производительности PaSS. Исследователи подчеркивают необходимость дальнейшего изучения влияния количества шагов предварительного просмотра на PaSS, поскольку увеличение количества шагов может потенциально устранить преимущества данного подхода.