Фреймворк для эффективного обслуживания ваших больших языковых моделей

Фреймворк для обслуживания больших языковых моделей

Обслуживание ваших больших языковых моделей точно так же, как вы бы делали с использованием OpenAI API, но без затрат

Фото от австрийской национальной библиотеки на Unsplash

Введение

В последние несколько месяцев было много энтузиазма вокруг использования больших языковых моделей. Это неудивительно, учитывая их способность помочь решить большинство задач, которые мы считаем неразрешимыми, и благодаря активному научному сообществу за такую отличную работу.

Как и любые модели искусственного интеллекта и машинного обучения, независимо от их мощности, только их внедрение в производство может помочь заинтересованным сторонам принимать лучше обоснованные решения.

Развертывание этих больших языковых моделей является, безусловно, одной из самых сложных задач, не потому что команды по развертыванию не компетентны, а просто из-за сложности развертывания таких типов моделей.

Не было бы здорово, если бы у нас была платформа, которая делает процесс промышленного использования этих моделей максимально гладким?

Вот где пригодится библиотека vLLM, свободно распространяемая библиотека, разработанная UC Berkeley под лицензией Apache.

Философия, лежащая в основе vLLM, заключается в том, чтобы сделать обслуживание и вывод больших языковых моделей доступным как для промышленности, так и для небольших научных команд.

После завершения этого неспонсируемого (не рекламного) учебного пособия вы сможете:

  • Настроить vLLM на вашем рабочем пространстве и Google Colab
  • Выполнить автономный пакетный вывод большой языковой модели по вашим подсказкам
  • Создать API-сервер для обслуживания вашей модели с помощью Postman и команды curl

vLLM — почему нам следует обратить внимание?

Прежде чем приступить к реализации, давайте кратко рассмотрим производительность vLLM по сравнению с другими инструментами, такими как HuggingFace Transformers (HF) и…