Введение в поточный анализ LLM LLM для неограниченной длины входных данных.

Понимание основ потокового анализа LLM LLM для обработки входных данных без ограничений в длине.

Большая языковая модель (LLM) изменила способ работы людей. С такой широко используемой моделью, как семейство GPT, все привыкли к этим моделям. Используя возможности LLM, мы быстро можем получить ответы на наши вопросы, отлаживать код и многое другое. Это делает модель полезной во многих приложениях.

Одним из вызовов LLM является то, что модель не подходит для потоковых приложений из-за неспособности модели обрабатывать длинные разговоры, превышающие заранее заданную длину обучающей последовательности. Кроме того, существует проблема повышенного потребления памяти.

Вот почему эти проблемы вызывают исследования для их решения. Что представляет собой эта научная работа? Давайте войдем в нее.

 

StreamingLLM

 

StreamingLLM – это разработанная Xiao и др. (2023) фреймворк для решения проблем потоковых приложений. Существующие методы ограничены из-за окна внимания, которое ограничивает LLM во время предварительного обучения.

Техника окна внимания может быть эффективной, но она страдает при обработке текстов, длина которых превышает размер его кэша. Вот почему исследователи попытались использовать состояния ключа и значения нескольких начальных токенов (сток внимания) вместе с последними токенами. Сравнение StreamingLLM и других методов можно увидеть на изображении ниже.

  

Мы можем видеть, как StreamingLLM справляется с вызовом, используя метод стока внимания. Этот сток внимания (начальные токены) используется для стабильного вычисления внимания и сочетается с последними токенами для повышения эффективности и поддержания стабильной производительности при работе с длинными текстами.

Кроме того, существующие методы страдают от оптимизации памяти. Однако LLM избегает этих проблем, поддерживая окно фиксированного размера для состояний ключа и значения самых последних токенов. Автор также упоминает преимущество StreamingLLM, как основной базовой линии для повторного вычисления скользящего окна с увеличением скорости до 22,2 раза.

С точки зрения производительности, StreamingLLM обеспечивает отличную точность по сравнению с существующим методом, как показано в таблице ниже.

  

В таблице выше показано, что точность StreamingLLM может быть выше, чем у других методов на базовых наборах данных. Вот почему StreamingLLM может иметь потенциал для множества потоковых приложений.

Чтобы использовать StreamingLLM, вы можете посетить их страницу GitHub. Склонируйте репозиторий в вашу целевую директорию и используйте следующий код в командной строке для настройки среды.

conda create -yn streaming python=3.8conda activate streamingpip install torch torchvision torchaudiopip install transformers==4.33.0 accelerate datasets evaluate wandb scikit-learn scipy sentencepiecepython setup.py develop

 

Затем вы можете использовать следующий код для запуска чат-бота Llama с использованием LLMstreaming.

CUDA_VISIBLE_DEVICES=0 python examples/run_streaming_llama.py  --enable_streaming

 

В целом, сравнение примеров с использованием StreamingLLM можно увидеть на изображении ниже.

  

Вот все, что относится к введению в StreamingLLM. В целом, я считаю, что StreamingLLM может найти свое место в потоковых приложениях и помочь изменить способ работы приложений в будущем.

 

Вывод

 

Иметь LLM в потоковых приложениях поможет бизнесу в долгосрочной перспективе, однако есть проблемы с реализацией. Большинство LLM не могут превышать заранее заданную длину обучающей последовательности и имеют повышенное потребление памяти. Xiao и др. (2023) разработали новый фреймворк под названием StreamingLLM для решения этих проблем. С использованием StreamingLLM теперь возможно использование LLM в потоковых приложениях.

[Корнелиус Юдха Виджая](https://www.linkedin.com/in/cornellius-yudha-wijaya/) – помощник менеджера по науке о данных и писатель. В то время как работает на полную ставку в компании Allianz Indonesia, он любит делиться советами по Python и данным через социальные медиа и печатные издания.