Захватывающее исполнение Большие языковые модели до 4 раз быстрее на RTX с TensorRT-LLM для Windows

Захватывающее исполнение Большие языковые модели в 4 раза быстрее на RTX с TensorRT-LLM для Windows

Генеративное ИИ – одна из самых важных тенденций в истории персональных компьютеров, приносящая прогресс в области игр, креативности, видео, продуктивности, разработки и многого другого.

И GeForce RTX и графические процессоры NVIDIA RTX, которые оснащены специализированными процессорами ИИ, называемыми тензорными ядрами, приносят мощь генеративного ИИ непосредственно на более чем 100 миллионов ПК и рабочих станций под управлением Windows.

Сегодня генеративный ИИ на ПК ускоряется до 4 раз с использованием TensorRT-LLM для Windows, библиотека с открытым исходным кодом, которая ускоряет выполнение вывода для последних моделей ИИ с большими языковыми моделями, таких как Llama 2 и Code Llama. Это следует за анонсом TensorRT-LLM для центров обработки данных в прошлом месяце.

Кроме того, NVIDIA выпустила инструменты, которые помогают разработчикам ускорить свои LLM-модели, включая скрипты, оптимизирующие пользовательские модели с помощью TensorRT-LLM, оптимизированные модели с открытым исходным кодом с использованием TensorRT, а также проект-пример для разработчиков, демонстрирующий скорость и качество ответов LLM.

Ускорение TensorRT теперь доступно для Stable Diffusion в популярном веб-интерфейсе от Automatic1111 distribution. Оно ускоряет генеративную ИИ модель диффузии в 2 раза по сравнению с предыдущей самой быстрой реализацией.

Кроме того, версия 1.5 RTX Super Resolution (VSR) доступна в составе сегодняшего релиза Game Ready Driver – и будет доступна в следующем NVIDIA Studio Driver, выход которого запланирован на начало следующего месяца.

Ускорение LLM с помощью TensorRT

LLM модели стимулируют продуктивность – участие в чатах, краткое изложение документов и контента в Интернете, написание электронных писем и блогов – и являются основой новых конвейеров искусственного интеллекта и другого программного обеспечения, которые могут автоматически анализировать данные и генерировать широкий спектр контента.

TensorRT-LLM, библиотека для ускорения LLM вывода, дает разработчикам и конечным пользователям преимущества LLM, которые теперь могут работать до 4 раз быстрее на ПК с поддержкой RTX.

При более высоких размерах пакетов это ускорение значительно улучшает опыт более сложного использования LLM, например, помощников по написанию и кодированию, которые выдают несколько уникальных автозавершений сразу. Результатом является ускоренная производительность и улучшенное качество, позволяющие пользователям выбрать лучший вариант.

Ускорение TensorRT-LLM также полезно при интеграции возможностей LLM с другими технологиями, например, в случае использования retrieval-augmented generation (RAG), когда LLM сопрягается с векторной библиотекой или векторной базой данных. RAG позволяет LLM предоставлять ответы на основе конкретного набора данных, например, электронных писем пользователей или статей на веб-сайте, для предоставления более целевых ответов.

Чтобы показать это на практике, когда был задан вопрос “Как NVIDIA ACE генерирует эмоциональные ответы?”, базовая модель LLaMa 2 вернула бесполезный ответ.

Лучшие ответы, быстрее.

В противоположность этому, используя RAG с недавними новостными статьями GeForce, загруженными в векторную библиотеку и связанными с той же моделью Llama 2, был возвращен правильный ответ, используя NeMo SteerLM, и сделал это намного быстрее с ускорением TensorRT-LLM. Эта комбинация скорости и профессионализма дает пользователям более интеллектуальные решения.

TensorRT-LLM скоро будет доступен для скачивания на сайте разработчика NVIDIA. Оптимизированные для TensorRT модели с открытым исходным кодом и демонстрация RAG с новостями GeForce в качестве примера проекта доступны на сайте ngc.nvidia.com и GitHub.com/NVIDIA.

Автоматическое ускорение

Модели диффузии, такие как Stable Diffusion, используются для создания потрясающих новаторских произведений искусства. Создание изображения является итеративным процессом, который может занимать сотни циклов для достижения идеального результата. Если это делается на слабом компьютере, эта итерация может занимать много часов.

TensorRT разработан для ускорения моделей искусственного интеллекта с помощью объединения слоев, калибровки точности, автоматической настройки ядра и других возможностей, которые значительно повышают эффективность и скорость вывода. Это делает его незаменимым для приложений реального времени и ресурсоемких задач.

И теперь, TensorRT удваивает скорость Stable Diffusion.

Совместимое с самыми популярными распространениями, веб-интерфейс от Automatic1111, Stable Diffusion с ускорением TensorRT помогает пользователям работать быстрее и меньше времени тратить на ожидание компьютера, достигая окончательного изображения быстрее. На графическом ускорителе GeForce RTX 4090 он работает в 7 раз быстрее лучшей реализации на Mac с чипом Apple M2 Ultra. Расширение доступно для скачивания уже сегодня здесь.

Демонстрация пайплайна Stable Diffusion с использованием TensorRT предоставляет разработчикам образец реализации, позволяющий подготовить модели диффузии и ускорить их с помощью TensorRT. Это отправная точка для разработчиков, заинтересованных в ускорении потока диффузии и достижении мгновенного вывода в своих приложениях.

Супер качество видео

Искусственный интеллект улучшает ежедневный опыт использования ПК для всех пользователей. Потоковое видео — с практически любого источника, такого как YouTube, Twitch, Prime Video, Disney+ и многих других — является одним из самых популярных видов активности на ПК. Благодаря искусственному интеллекту и RTX, это получает еще одно обновление в качестве изображения.

RTX VSR — прорыв в искусственной обработке пикселей, который улучшает качество потокового видеоконтента, уменьшая или устраняя артефакты, вызванные сжатием видео. Он также повышает четкость контуров и деталей.

В настоящее время доступна версия 1.5 RTX VSR, которая дополнительно улучшает визуальное качество с обновленными моделями, устраняет артефакты, выводимые в соответствии с исходным разрешением, и добавляет поддержку графических процессоров RTX на архитектуре NVIDIA Turing, включая как профессиональные RTX, так и графические процессоры GeForce RTX 20 серии.

Повторное обучение модели искусственного интеллекта VSR позволило ей научиться точно определять разницу между мелкими деталями и артефактами сжатия. В результате, изображения, усиленные искусственным интеллектом, более точно сохраняют детали в процессе масштабирования. Более мелкие детали становятся более видимыми, а общий облик изображения выглядит более четким и резким.

RTX Video Super Resolution v1.5 улучшает детали и резкость.

Версия 1.5 RTX VSR теперь позволяет устранять артефакты в видео, проигрываемом силами разрешения дисплея. Первоначальная версия улучшала видео только при увеличении его масштаба. Теперь, например, 1080p видео, передаваемое на дисплей разрешения 1080p, будет выглядеть более плавным за счет сокращения больших артефактов.

RTX VSR теперь устраняет артефакты в видео, воспроизводимом в его исходном разрешении.

RTX VSR 1.5 уже сегодня доступен для всех пользователей RTX с последней версией Game Ready Driver. Он также будет доступен в предстоящем драйвере NVIDIA Studio, запланированном на начало следующего месяца.

RTX VSR входит в набор программного обеспечения NVIDIA, инструментов, библиотек и SDK — вроде тех, что упоминались ранее, а также DLSS, Omniverse, AI Workbench и других — которые способствовали созданию более 400 приложений и игр с поддержкой искусственного интеллекта для потребителей.

Эра искусственного интеллекта настигла нас. И RTX усиливает каждый шаг на ее пути в развитии.