Microsoft AI выпускает LLMLingua уникальную быструю технику сжатия, которая сжимает инструкции для ускоренного вывода больших языковых моделей (LLM).

Microsoft AI представляет уникальную технику сжатия LLMLingua для ускоренного вывода больших языковых моделей (LLM).

“`html

Большие языковые модели (LLM) благодаря своим сильным обобщающим и логическим способностям значительно повысили эффективность искусственного интеллекта (ИИ) в сфере ИИ. Эти модели показали себя замечательными и продемонстрировали возможности обработки естественного языка (NLP), генерации естественного языка (NLG), компьютерного зрения и так далее. Однако новые разработки, включая обучение в контексте (ICL) и цепочку мыслей (CoT) стимулирования, привели к применению более длинных запросов, иногда состоящих из десятков тысяч токенов. Это создает проблемы для вывода модели с точки зрения эффективности себестоимости и вычислительной эффективности.

Для преодоления этих проблем команда исследователей из корпорации Microsoft представила LLMLingua – уникальную алгоритмическую технику грубого сжатия. LLMLingua разработана с основной целью минимизации расходов, связанных с обработкой длинных запросов, и ускорения вывода модели. Для этого LLMLingua использует несколько важных стратегий, которые являются следующими.

  1. Контроллер бюджета: создан динамический контроллер бюджета, который определяет распределение степеней сжатия между различными частями исходных запросов. Это обеспечивает сохранение семантической целостности запросов даже при значительных степенях сжатия.
  1. Алгоритм итерационного сжатия на уровне токенов: в LLMLingua был интегрирован алгоритм итерационного сжатия на уровне токенов, который позволяет более сложное сжатие путем учета взаимосвязи между сжатыми элементами, сохраняя при этом важную информацию о запросе.
  1. Методика настройки инструкций: команда предложила подход настройки инструкций для решения проблемы неправильного распределения среди языковых моделей. Выравнивание распределения языковой модели улучшает совместимость между маленькой языковой моделью, используемой для быстрого сжатия, и намеченной LLM.

Команда провела анализ и эксперименты с использованием четырех наборов данных из различных обстоятельств для проверки полезности LLMLingua. В качестве наборов данных использовались GSM8K и BBH для логического вывода, ShareGPT для разговора и Arxiv-March23 для суммирования. Результаты показали, что предложенный подход достигает высокого качества работы в каждом из этих случаев. Полученные результаты показали, что LLMLingua позволяет значительное сжатие до 20 раз при незначительной потере производительности.

В экспериментах использовалась маленькая языковая модель LLaMA-7B, а закрытая LLM – GPT-3.5-Turbo-0301. LLMLingua показала лучшие результаты по сравнению с предыдущими техниками сжатия, сохраняя возможности логического вывода, суммирования и дискурса, даже при максимальной степени сжатия в 20 раз, что является выражением устойчивости, экономичности, эффективности и восстановления.

Эффективность LLMLingua была замечена в различных закрытых LLM и маленьких языковых моделях. LLMLingua продемонстрировала хорошие результаты, приближенные к более крупным моделям при использовании GPT-2-small. Она также показала свою эффективность с сильными LLM, превосходя ожидаемые быстрые результаты.

Восстанавливаемость LLMLingua является одной из важных особенностей, так как GPT-4 эффективно извлекает важную логическую информацию из полных девятиминутных запросов CoT при восстановлении сжатых запросов, сохраняя смысл и схожесть с оригинальными запросами. Эта функция обеспечивает восстанавливаемость и сохраняет важную информацию даже после перевода, что делает LLMLingua впечатляющей по всем показателям.

В заключение, LLMLingua предоставляет всеобъемлющее решение проблем, связанных с длинными запросами в приложениях LLM. Метод демонстрирует отличную производительность и предлагает полезный способ улучшения эффективности и доступности приложений, основанных на LLM.

“`