Возжигая будущее релиз TensorRT-LLM ускоряет производительность инференции ИИ и добавляет поддержку новых моделей на компьютерах под управлением Windows 11, работающих на основе RTX.

Ускорение инференции ИИ и поддержка новых моделей с TensorRT-LLM на ПК с Windows 11, работающих на RTX

Искусственный интеллект на ПК с Windows 11 является поворотным моментом в истории технологий, революционируя опыт для геймеров, создателей, стримеров, офисных работников, студентов и даже обычных пользователей ПК.

Он предлагает беспрецедентные возможности для повышения производительности для пользователей более 100 миллионов ПК и рабочих станций под управлением RTX GPU. И технология NVIDIA RTX упрощает разработку приложений искусственного интеллекта, меняющих способ использования компьютеров.

Новые оптимизации, модели и ресурсы, объявленные на Microsoft Ignite, помогут разработчикам доставлять новые впечатления конечным пользователям быстрее.

Предстоящее обновление для TensorRT-LLM – программного обеспечения с открытым исходным кодом, повышающего производительность AI-вывода, добавит поддержку новых больших языковых моделей и сделает требовательные нагрузки AI более доступными на настольных компьютерах и ноутбуках с GPU RTX, начиная с 8 ГБ VRAM.

TensorRT-LLM для Windows скоро будет совместим с популярным Chat API от OpenAI через новую обертку. Это позволит выполнять сотни проектов и приложений разработчиков локально на ПК с RTX, а не в облаке, чтобы пользователи могли хранить личные и собственные данные на ПК с Windows 11.

Создание настраиваемого генеративного искусственного интеллекта требует времени и энергии для поддержки проектов. Процесс может стать невероятно сложным и требовательным к времени, особенно при попытке сотрудничать и внедрять на нескольких средах и платформах.

AI Workbench – это унифицированный и простой в использовании инструментарий, который позволяет разработчикам быстро создавать, тестировать и настраивать предварительно обученные модели генеративного искусственного интеллекта и LLM на ПК или рабочей станции. Он предоставляет разработчикам единую платформу для организации их проектов и настройки моделей для конкретных случаев использования.

Это позволяет без проблем сотрудничать и внедрять для разработчиков создание экономически эффективных масштабируемых моделей генеративного искусственного интеллекта. Присоединяйтесь к списку раннего доступа, чтобы быть среди первых, кто получит доступ к этой растущей инициативе и получить будущие обновления.

Чтобы поддержать разработчиков искусственного интеллекта, NVIDIA и Microsoft выпускают усовершенствования DirectML для ускорения двух самых популярных базовых моделей ИИ: Llama 2 и Stable Diffusion. Теперь разработчики имеют больше возможностей для развертывания на разных поставщиках, помимо установления нового стандарта производительности.

Портативный искусственный интеллект

В прошлом месяце NVIDIA объявила о TensorRT-LLM для Windows, библиотеке для ускорения вывода LLM.

Следующее обновление TensorRT-LLM, версия 0.6.0, выйдет в конце этого месяца и повысит производительность вывода – до 5 раз быстрее – а также обеспечит поддержку дополнительных популярных LLM, включая новые Mistral 7B и Nemotron-3 8B. Версии этих LLM будут работать на любых GPU серии GeForce RTX 30 и 40 с объемом ОЗУ 8 ГБ или более, обеспечивая быстрые, точные возможности локального LLM на самых портативных устройствах с Windows.

Диаграмма производительности TensorRT-LLM V0.6 Windows
До 5-кратного увеличения производительности с новым TensorRT-LLM v0.6.0.

Новая версия TensorRT-LLM будет доступна для установки на репозитории GitHub /NVIDIA/TensorRT-LLM. Новые оптимизированные модели будут доступны на ngc.nvidia.com.

Уверенное общение

Разработчики и энтузиасты со всего мира используют Chat API от OpenAI для широкого спектра приложений – от резюмирования веб-контента и создания черновиков документов и электронных писем до анализа и визуализации данных и создания презентаций.

Одним из вызовов при использовании таких облачных ИИ является необходимость загрузки пользовательских входных данных, что делает их непрактичными для частных или проприетарных данных или для работы с большими объемами данных.

Для решения этой проблемы NVIDIA в ближайшем будущем обеспечивает поддержку TensorRT-LLM для Windows, чтобы предложить аналогичный интерфейс API для популярного ChatAPI от OpenAI через новую оболочку, предлагая разработчикам аналогичный рабочий процесс, независимо от того, разрабатывают ли они модели и приложения для запуска на ПК с RTX или в облаке. Заменив всего одну или две строки кода, сотни проектов и приложений, основанных на искусственном интеллекте, теперь могут получить преимущества быстрой работы местного ИИ. Пользователи могут сохранять свои данные на своих ПК и не беспокоиться о загрузке наборов данных в облако.

Возможно, самая лучшая часть заключается в том, что многие из этих проектов и приложений являются открытыми исходными кодами, что облегчает задачу разработчикам использовать и расширять их возможности для продвижения внедрения генеративного ИИ в Windows, под управлением RTX.

Оболочка будет работать с любым LLM, оптимизированным для TensorRT-LLM (например, Llama 2, Mistral и NV LLM), и выпускается в качестве ориентировочного проекта на GitHub вместе с другими ресурсами для разработчиков для работы с LLM на RTX.

Ускорение модели

Разработчики теперь могут использовать передовые модели искусственного интеллекта и развертывать их с помощью кросс-поставщика API. В рамках непрерывного обязательства к развитию возможностей разработчиков NVIDIA и Microsoft сотрудничают по ускорению Llama на RTX с помощью API DirectML.

Создавая на основе объявленных прошлым месяцем результатов быстрой работы вывода для этих моделей, это новое решение для развертывания совместимо с несколькими поставщиками и позволяет проще привносить возможности искусственного интеллекта на ПК.

Разработчики и энтузиасты могут ознакомиться с последними оптимизациями, загрузив последнюю версию среды выполнения ONNX и следуя инструкциям по установке от Microsoft, а также установив последний драйвер от NVIDIA, который будет доступен 21 ноября.

Эти новые оптимизации, модели и ресурсы ускорят разработку и развертывание функций и приложений искусственного интеллекта по всему миру на более чем 100 миллионах ПК с RTX, присоединяясь к более чем 400 партнерам, которые уже предлагают приложения и игры, работающие на RTX-ускоренных GPU.

Поскольку модели становятся еще более доступными, а разработчики приносят больше функций, основанных на генеративном искусственном интеллекте, на ПК под управлением RTX, RTX-GPU станет важным для того, чтобы пользователи могли воспользоваться всей мощью этой технологии.