Почему ГПУ отлично подходят для искусственного интеллекта

Почему графические процессоры (ГПУ) идеально подходят для искусственного интеллекта

Видеокарты (GPUs) были названы редкоземельными металлами – даже золотом – искусственного интеллекта, потому что они являются основой для нынешней эпохи развития генеративного искусственного интеллекта.

Три технические причины, а также множество историй помогают объяснить такое положение. Каждая причина имеет множество аспектов, заслуживающих исследования, но в общих чертах:

  • Видеокарты используют параллельную обработку.
  • Системы с видеокартами могут масштабироваться до высот суперкомпьютеров.
  • Стек программного обеспечения для искусственного интеллекта на базе видеокарт широк и глубок.

В итоге видеокарты выполняют технические вычисления быстрее и с большей энергоэффективностью по сравнению с процессорами. Это означает, что они обеспечивают ведущую производительность в области обучения и вывода искусственного интеллекта, а также преимущества в широком спектре приложений, использующих ускоренные вычисления.

В своём последнем отчете о искусственном интеллекте группа Human-Centered AI Стэнфордского университета привела контекст. Согласно отчёту, производительность видеокарт “увеличилась примерно в 7 000 раз” с 2003 года, а цена за производительность стала “в 5 600 раз больше”.

Отчет Стэнфордского университета о повышении производительности видеокарт
Отчет за 2023 год показывает резкий рост производительности видеокарт и стоимости за производительность.

Отчет также приводит анализ от независимой исследовательской группы Epoch, измеряющей и прогнозирующей прогресс в области искусственного интеллекта.

“Видеокарты являются доминирующей вычислительной платформой для ускорения нагрузок машинного обучения, и большинство (если не все) крупнейшие модели за последние пять лет были обучены на видеокартах… Они тем самым в значительной степени способствовали последнему прогрессу в области искусственного интеллекта”, – говорится на их сайте, Epoch.

Подобные выводы формулируются и в исследовании 2020 года, проведенном для правительства США.

“Мы ожидаем, что AI-чипы новейшего поколения будут на один-три порядка более экономичными, чем CPU-чипы новейшего поколения, если учесть производственные и операционные издержки”, – говорится в отчёте.

Как заявил Билл Дэлли, главный ученый компании, на конференции Hot Chips, ежегодном собрании полупроводниковых и системных инженеров, производительность видеокарт NVIDIA в области вывода искусственного интеллекта за последние десять лет выросла в 1 000 раз.

ChatGPT разносит новости

ChatGPT представляет собой мощный пример того, насколько хороши видеокарты для искусственного интеллекта. Большая языковая модель (LLM), обученная и работающая на тысячах видеокарт NVIDIA, используется более чем 100 миллионами людей.

С момента её запуска в 2018 году MLPerf, отраслевой стандартный бенчмарк для искусственного интеллекта, предоставляет цифры, подтверждающие ведущую производительность видеокарт NVIDIA как в области обучения, так и вывода искусственного интеллекта.

Например, наиболее последний раунд тестирования MLPerf инференса был выигран видеокартами NVIDIA Grace Hopper Superchips по ссылке NVIDIA TensorRT-LLM, программной средой для инференса, которая была выпущена после этих тестов. Она позволяет улучшить производительность в 8 раз и снизить энергопотребление и стоимость владения более чем в 5 раз. Компания NVIDIA выиграла в каждом раунде тестов MLPerf с момента запуска этого бенчмарка в 2019 году.

В феврале GPU от NVIDIA продемонстрировали ведущие результаты для вывода вывода, обрабатывая тысячи выводов в секунду на самых требовательных моделях в бенчмарке STAC-ML Markets, ключевом показателе производительности технологий для финансовой отрасли.

Команда разработчиков RedHat в своем блоге выразила это кратко: «GPU стали основой искусственного интеллекта».

Искусственный интеллект в действии

Краткий обзор наглядно показывает почему GPU и ИИ являются мощной комбинацией.

ИИ модель, также известная как нейронная сеть, по сути, является математической лазаньей, состоящей из слоя за слоем линейных алгебраических уравнений. Каждое уравнение представляет собой вероятность того, что один фрагмент данных связан с другим.

Свою роль играют также GPU, укомплектованные тысячами ядер, маленькими калькуляторами, работающими параллельно для выполнения математических расчетов, лежащих в основе модели ИИ. Это, в общих чертах, представляет собой работу вычислений нейросетей.

Высокоточные тензорные ядра

Со временем инженеры NVIDIA настроили ядра GPU под нужды развивающихся ИИ моделей. В последние GPU были добавлены тензорные ядра, которые в 60 раз мощнее первого поколения дизайнов для обработки матричной математики, используемой нейронными сетями.

Кроме того, GPU NVIDIA Hopper Tensor Core включают машину Transformer, которая автоматически регулируется для достижения оптимальной точности обработки моделей-трансформеров, класса нейронных сетей, породившего генеративный ИИ.

На пути развития каждое поколение GPU увеличивало объем памяти и оптимизировало методы хранения целой ИИ модели на одном или нескольких GPU.

Рост моделей, расширение систем

Сложность ИИ моделей расширяется на порядок 10 раз в год.

Актуальная LLM-модель GPT4 содержит более триллиона параметров, метрику ее математической плотности. Это в сравнении с популярной LLM в 2018 году, у которой было менее 100 миллионов параметров.

На диаграмме показано улучшение производительности в 1,000 раз на ИИ выводе за последнее десятилетие для одиночных GPU
На недавнем выступлении на конференции Hot Chips главный ученый NVIDIA Билл Дэлли описал, как производительность одного GPU для ИИ вывода увеличилась в течение последнего десятилетия в 1,000 раз.

Системы GPU справились с вызовом, масштабируясь до суперкомпьютеров благодаря быстрым интерконнектам NVLink и сетям NVIDIA Quantum InfiniBand.

Например, большая память искусственного интеллекта DGX GH200 объединяет до 256 NVIDIA GH200 Grace Hopper Superchip в единый GPU размером с дата-центр с общей памятью в 144 терабайта.

Каждый суперчип GH200 – это один сервер с 72 ядрами Arm Neoverse CPU и 4 петафлопсами производительности ИИ. В конфигурации системы Grace Hopper с четырьмя способами предоставляется одиночный вычислительный узел с 288 ядрами Arm и 16 петафлопсами производительности ИИ с до 2.3 терабайтами высокоскоростной памяти.

И GPU NVIDIA H200 Tensor Core, анонсированные в ноябре, могут вмещать до 288 гигабайт самой новой технологии памяти HBM3e.

Программное обеспечение охватывает все области

С 2007 года появилось огромное количество программного обеспечения для GPU, которое позволяет использовать ИИ во всех его аспектах, от основных функций до приложений высокого уровня.

Платформа NVIDIA AI включает в себя сотни библиотек и приложений. Язык программирования CUDA и библиотека cuDNN-X для глубокого обучения предоставляют базу, на основе которой разработчики создали такие программы, как NVIDIA NeMo, позволяющий пользователям создавать, настраивать и запускать вывод на своих генеративных ИИ-моделях.

Многие из этих компонентов доступны в виде программного обеспечения с открытым исходным кодом, а это стандартный и удобный инструмент для разработчиков. Более ста из них упакованы в платформу NVIDIA AI Enterprise для компаний, требующих полной безопасности и поддержки. Все больше они также доступны от крупных облачных провайдеров в виде API и услуг на NVIDIA DGX Cloud.

SteerLM, одно из последних обновлений программного обеспечения ИИ для GPU NVIDIA, позволяет пользователям настроить модели во время вывода.

70-кратное ускорение в 2008 году

Истории успеха начинаются с работы 2008 года от пионера в области ИИ Эндрю Нга, который тогда был исследователем в Стэнфорде. Используя две графические карты NVIDIA GeForce GTX 280, его команда из трех человек достигла 70-кратного ускорения по сравнению с использованием центральных процессоров для обработки ИИ-модели с 100 миллионами параметров, закончив работу, которая раньше требовала нескольких недель, всего за один день.

Они сообщили: “Современные графические процессоры значительно превосходят вычислительные возможности многоядерных ЦПУ и имеют потенциал изменить применение методов глубокого наблюдаемого обучения”.

Фотография Эндрю Нга, показывающая слайд на презентации о производительности ГП для ИИ
Эндрю Нг описал свой опыт использования ГП для ИИ на конференции GTC 2015 года.

На конференции NVIDIA GTC в 2015 году Нг рассказал, как он продолжал использовать все больше ГП для масштабирования своих работ, работая с более крупными моделями в Google Brain и Baidu. Позже он помог основать Coursera, платформу онлайн-образования, где он преподавал сотням тысяч студентов ИИ.

Нг считает Джефа Хинтона, одного из величайших отцов современного ИИ, среди людей, на которых он оказал влияние. “Я помню, как подошел к Джефу Хинтону и сказал ему: “Посмотри на CUDA, я думаю, что она может помочь строить большие нейронные сети”, – сказал он в презентации на конференции GTC.

Профессор Торонтоского университета распространил эту идею. “В 2009 году я выступал на конференции NIPS [теперь NeurIPS], где я сказал около 1000 исследователям, что они все должны покупать GPU, потому что GPU станут будущим машинного обучения”, – сказал Хинтон в общем заявлении.

Быстрое развитие с помощью ГП

Ожидается, что прогресс ИИ повлияет на глобальную экономику.

Отчет McKinsey в июне оценил, что генеративный ИИ может добавить эквивалент от 2,6 триллиона до 4,4 триллиона долларов ежегодно по результатам его исследования 63 сценариев использования в отраслях, таких как банковское дело, здравоохранение и розничная торговля. Поэтому не удивительно, что доклад Университета Стэнфорда 2023 года об ИИ гласит, что большинство бизнес-лидеров планируют увеличить свои инвестиции в ИИ.

Сегодня более 40 000 компаний используют графические процессоры NVIDIA для искусственного интеллекта и ускоренных вычислений, привлекая глобальное сообщество из 4 миллионов разработчиков. Вместе они продвигают науку, здравоохранение, финансы и практически все отрасли.

Среди последних достижений NVIDIA описала огромное ускорение в 700 000 раз при использовании искусственного интеллекта для облегчения изменения климата путем удержания углекислого газа в атмосфере (см. видео ниже). Это один из многих способов применения производительности графических процессоров NVIDIA в искусственном интеллекте и не только.

Узнайте, как графические процессоры внедряют искусственный интеллект в производство.