NVIDIA Grace Hopper Superchip покоряет бенчмарки MLPerf Inference

NVIDIA Grace Hopper Superchip dominates MLPerf Inference benchmarks

В своем дебюте в бенчмарках отрасли MLPerf суперчип NVIDIA GH200 Grace Hopper выполнил все тесты нейронных сетей в центрах обработки данных, расширяя ведущую производительность графических процессоров NVIDIA H100 Tensor Core.

Общие результаты показали исключительную производительность и универсальность платформы искусственного интеллекта NVIDIA от облачных решений до периферийной сети.

Отдельно NVIDIA объявила о выпуске программного обеспечения для нейронных сетей, которое обеспечит пользователям значительный рост производительности, энергоэффективности и общей стоимости владения.

Суперчипы GH200 блестят в MLPerf

GH200 объединяет графический процессор Hopper и центральный процессор Grace в одном суперчипе. Эта комбинация обеспечивает больше памяти, пропускной способности и возможность автоматического переключения питания между ЦП и ГП для оптимизации производительности.

Отдельно следует отметить, что системы NVIDIA HGX H100 с восьмью графическими процессорами H100 показали наивысшую производительность по всем тестам нейронных сетей MLPerf в этом раунде.

Суперчипы Grace Hopper и графические процессоры H100 лидировали во всех тестах нейронных сетей MLPerf, включая компьютерное зрение, распознавание речи, медицинскую диагностику, а также более сложные задачи, такие как системы рекомендаций и создание текстов с помощью моделей искусственного интеллекта.

В целом, результаты продолжают подтверждать ведущую роль NVIDIA в области обучения и выполнения нейронных сетей AI с момента запуска бенчмарков MLPerf в 2018 году.

В последнем раунде MLPerf был проведен обновленный тест систем рекомендаций, а также первый бенчмарк для GPT-J, модели искусственного интеллекта с шестью миллиардами параметров — грубой меры размера модели AI.

TensorRT-LLM ускоряет выполнение нейронных сетей

Чтобы справиться с сложными задачами любого размера, NVIDIA разработала программное обеспечение TensorRT-LLM, которое оптимизирует выполнение нейронных сетей. Эта библиотека с открытым исходным кодом, которая не была готова к августовской подаче заявки на MLPerf, позволяет повысить производительность выполнения нейронных сетей уже приобретенных графических процессоров H100 более чем в два раза без дополнительных затрат.

Внутренние тесты NVIDIA показали, что использование TensorRT-LLM на графических процессорах H100 обеспечивает ускорение выполнения моделей GPT-J 6B до 8 раз по сравнению с графическими процессорами предыдущего поколения без использования данного программного обеспечения.

Разработка программного обеспечения началась с работы NVIDIA по ускорению выполнения и оптимизации LLM с ведущими компаниями, включая Meta, AnyScale, Cohere, Deci, Grammarly, Mistral AI, MosaicML (теперь в составе Databricks), OctoML, Tabnine и Together AI.

MosaicML добавила необходимые функции к TensorRT-LLM и интегрировала их в свой существующий стек обслуживания. “Это было очень легко”, – сказал Навин Рао, вице-президент инжиниринга в Databricks.

“TensorRT-LLM прост в использовании, обладает множеством функций и эффективен”, – отметил Рао. “Он обеспечивает современную производительность для обслуживания LLM с использованием графических процессоров NVIDIA и позволяет сэкономить затраты для наших клиентов”.

TensorRT-LLM является последним примером непрерывного развития полноценной платформы искусственного интеллекта NVIDIA. Эти постоянные обновления программного обеспечения обеспечивают пользователям рост производительности без дополнительных затрат и обеспечивают универсальность в различных задачах искусственного интеллекта.

L4 улучшает выполнение нейронных сетей на основных серверах

В последних бенчмарках MLPerf графические процессоры NVIDIA L4 выполнили все виды задач и продемонстрировали отличную производительность по всем показателям.

Например, графические процессоры L4, работающие в компактных 72-ваттных ускорителях PCIe, обеспечили производительность в 6 раз выше, чем у центральных процессоров с потреблением энергии почти в 5 раз выше.

Кроме того, графические процессоры L4 имеют специальные мультимедийные движки, которые в сочетании с программным обеспечением CUDA обеспечивают ускорение скорости выполнения задач компьютерного зрения в тестах NVIDIA до 120 раз.

Графические процессоры L4 доступны в Google Cloud и у многих производителей систем, обслуживая клиентов в различных отраслях, от интернет-сервисов для потребителей до открытия лекарств.

Увеличение производительности на периферии

Отдельно стоит отметить, что NVIDIA применила новую технологию сжатия моделей, которая позволила увеличить производительность выполнения моделей BERT LLM на графических процессорах L4 в 4,7 раза. Этот результат был достигнут в так называемом “открытом разделе” MLPerf, который предназначен для демонстрации новых возможностей.

Эта техника ожидается, что она будет использоваться во всех задачах искусственного интеллекта. Она может быть особенно полезна при выполнении моделей на периферийных устройствах с ограниченными размерами и потреблением энергии.

В еще одном примере ведущей роли в вычислениях на периферии, системный модуль NVIDIA Jetson Orin показал увеличение производительности на 84% по сравнению с предыдущим раундом в задаче обнаружения объектов, распространенной в задачах компьютерного зрения и робототехники на периферии.

Продвижение Jetson Orin основано на использовании программного обеспечения, использующего последнюю версию ядер чипа, таких как программируемый ускоритель зрения, графический процессор NVIDIA Ampere и специализированный ускоритель глубокого обучения.

Универсальная производительность, широкая экосистема

Бенчмарки MLPerf прозрачны и объективны, поэтому пользователи могут полагаться на их результаты для принятия обоснованных решений о покупке. Они также охватывают широкий спектр случаев использования и сценариев, поэтому пользователи знают, что они могут получить производительность, которая надежна и гибка в развертывании.

Партнеры, участвующие в этом раунде, включали поставщиков облачных услуг Microsoft Azure и Oracle Cloud Infrastructure, а также производителей систем ASUS, Connect Tech, Dell Technologies, Fujitsu, GIGABYTE, Hewlett Packard Enterprise, Lenovo, QCT и Supermicro.

В целом, MLPerf поддерживается более чем 70 организациями, включая Alibaba, Arm, Cisco, Google, Гарвардский университет, Intel, Meta, Microsoft и Университет Торонто.

Чтобы узнать больше деталей о том, как NVIDIA достигла последних результатов, прочтите технический блог.

Весь используемый в бенчмарках программный продукт NVIDIA доступен в репозитории MLPerf, так что каждый может получить такие же результаты мирового класса. Оптимизации непрерывно включаются в контейнеры, доступные на программной платформе NVIDIA NGC для приложений на графических процессорах.