Познакомьтесь с TensorRT-LLM библиотекой с открытым исходным кодом, которая ускоряет и оптимизирует производительность вывода на последних LLM-процессорах на графических процессорах Tensor Core от NVIDIA.

TensorRT-LLM - open-source library for accelerating and optimizing output performance on the latest LLM processors on NVIDIA Tensor Core GPUs.

Искусственный интеллект (ИИ) на основе больших моделей языков (LLM) может генерировать текст, переводить языки, писать различные формы творческого материала и давать полезные ответы на ваши вопросы. Однако у LLM есть несколько проблем, например, тот факт, что они обучаются на больших наборах данных текста и кода, которые могут содержать предубеждения. Результаты, полученные от LLM, могут отражать эти предрассудки, усиливая негативные стереотипы и распространяя ложную информацию. Иногда LLM будут производить текст, не имеющий основы в реальности. Эти состояния называются галлюцинациями. Ошибочное толкование и неверные выводы могут быть результатом чтения галлюцинаторного текста. Необходимо проделать работу, чтобы понять, как LLM функционируют внутри. Из-за этого трудно понять логику действий моделей. Это может вызывать проблемы в контекстах, где открытость и ответственность имеют важное значение, например, в медицинских и финансовых секторах. Обучение и развертывание LLM требует большого объема вычислительной мощности. Они могут стать недоступными для многих малых фирм и некоммерческих организаций. Спам, фишинговые письма и фейковые новости – все это примеры неправильной информации, которую можно создать с помощью LLM. Пользователи и бизнесы могут оказаться в опасности из-за этого.

Исследователи из NVIDIA сотрудничали с ведущими компаниями, такими как Meta, Anyscale, Cohere, Deci, Grammarly, Mistral AI, MosaicML (теперь часть Databricks), OctoML, Tabnine и Together AI, чтобы ускорить и совершенствовать вывод LLM. Эти улучшения будут включены в предстоящую открытую версию программного обеспечения NVIDIA TensorRT-LLM. TensorRT-LLM – это компилятор глубокого обучения, который использует графические процессоры NVIDIA для обеспечения передовых характеристик производительности благодаря оптимизированным ядрам, фазам предварительной и постобработки и примитивам связи между несколькими GPU/узлами. Разработчики могут экспериментировать с новыми LLM, не имея глубоких знаний C++ или NVIDIA CUDA, получая высокую производительность и быстрые возможности настройки. С помощью его открытого модульного Python API TensorRT-LLM упрощает определение, оптимизацию и выполнение новых архитектур и улучшений по мере развития LLM.

Используя последние графические процессоры центров обработки данных NVIDIA, TensorRT-LLM надеется увеличить пропускную способность LLM, существенно снизив расходы. Для создания, оптимизации и запуска LLM в производственной среде он предоставляет простой, открытый Python API, в котором содержится компилятор глубокого обучения TensorRT, оптимизированные ядра FasterTransformer, фазы предварительной и постобработки и примитивы связи между несколькими GPU/узлами.

TensorRT-LLM позволяет создавать более широкий спектр LLM-приложений. Теперь, когда у нас есть модели с 70 миллиардами параметров, такие как Llama 2 от Meta и Falcon 180B, шаблонный подход уже не является практичным. Реальная производительность таких моделей обычно зависит от конфигураций с несколькими GPU и сложной координации. За счет предоставления тензорного параллелизма, распределения матриц весов между устройствами, TensorRT-LLM упрощает этот процесс и устраняет необходимость вручную фрагментировать и переупорядочивать код разработчиков.

Еще одна заметная функция, специально разработанная для эффективной работы с крайне изменчивыми рабочими нагрузками, характерными для LLM-приложений, – это оптимизация пакетной обработки в полете. Эта функция позволяет динамическое параллельное выполнение, которое максимизирует использование GPU для задач, таких как взаимодействие вопрос-ответ в чат-ботах и аннотации документов. Учитывая увеличивающийся размер и охват реализаций ИИ, бизнесы могут рассчитывать на снижение общей стоимости владения (TCO).

Результаты по производительности поражают воображение. По результатам тестов был показан 8-кратный прирост в задачах, таких как суммирование статей, при использовании TensorRT-LLM с графическими процессорами NVIDIA H100 по сравнению с A100.

Рисунок 1. GPT-J-6B  A100 по сравнению с H100 с и без TensorRT-LLM | Суммирование текста, переменная длина ввода/вывода, набор данных CNN / DailyMail | A100 FP16 PyTorch eager режим | H100 FP8 | H100 FP8, пакетная обработка в полете, TensorRT-LLM | Источник изображения: https://developer.nvidia.com/blog/nvidia-tensorrt-llm-supercharges-large-language-model-inference-on-nvidia-h100-gpus/

TensorRT-LLM может увеличить производительность вывода в 4,6 раза по сравнению с графическими процессорами A100 на модели Llama 2, недавно выпущенной Meta и используемой многими компаниями, желающими внедрить генеративный искусственный интеллект.

Рисунок 2. Llama 2 70B, A100 в сравнении с H100 с и без TensorRT-LLM | Суммирование текста, переменная длина ввода-вывода, набор данных CNN / DailyMail | A100 FP16 PyTorch eager mode| H100 FP8 | H100 FP8, пакетная обработка в процессе, TensorRT-LLM | Источник изображения: https://developer.nvidia.com/blog/nvidia-tensorrt-llm-supercharges-large-language-model-inference-on-nvidia-h100-gpus/

В заключение, LLM развиваются быстро. Каждый день появляется новое дополнение к постоянно расширяющейся экосистеме моделей. В результате большие модели открывают новые возможности и сценарии использования, повышая их принятие в каждом секторе. Центр обработки данных развивается благодаря выводу LLM. Улучшается общая стоимость владения для бизнеса благодаря повышенной производительности и большей точности. Лучшие клиентские впечатления, обеспечиваемые изменениями модели, приводят к увеличению продаж и прибыли. При планировании инициатив по развертыванию вывода следует учитывать множество дополнительных факторов, чтобы извлечь максимум из передовых моделей LLM. Оптимизация редко происходит сама по себе. Пользователи должны думать о параллелизме, конвейерах от начала до конца и сложных методах планирования при выполнении тонкой настройки. Им нужна компьютерная система, способная обрабатывать данные с различной степенью точности, не ухудшая точность. TensorRT-LLM – это простой открытый API Python для создания, оптимизации и запуска LLM для вывода в производстве. Он включает в себя глубокий компилятор TensorRT, оптимизированные ядра, предварительную и последующую обработку и меж-GPU/меж-узловую коммуникацию.