Широкие горизонты выступление NVIDIA указывает на дальнейшие успехи в области искусственного интеллекта

NVIDIA's broad horizons indicate further successes in the field of artificial intelligence.

Драматический рост производительности оборудования породил генеративное искусственное интеллекта (AI), а также богатую конвейерную линию идей для будущих ускорений, которые поднимут машинное обучение на новые высоты, сказал Билл Делли, главный ученый и старший вице-президент исследований в компании NVIDIA, сегодня на ключевой презентации.

Делли описал ряд техник, над которыми ведутся работы, некоторые из которых уже показывают впечатляющие результаты, в своей речи на конференции Hot Chips, ежегодном событии для процессорных и системных архитекторов.

“Прогресс в области искусственного интеллекта был огромным, его обеспечило оборудование, и он по-прежнему зависит от оборудования для глубинного обучения”, – сказал Делли, один из ведущих компьютерных ученых в мире и бывший председатель кафедры компьютерных наук Стэнфордского университета.

Он показал, например, как ChatGPT, большая языковая модель (LLM), используемая миллионами людей, могла предложить структуру его доклада. Такие возможности во многом обусловлены успехами графических процессоров (GPU) в области производительности инференции искусственного интеллекта за последнее десятилетие, сказал он.

Улучшения в производительности одного графического процессора – это лишь часть более широкой истории, которая включает миллионные прорывы в масштабировании до суперкомпьютеров размером с центры обработки данных.

Исследования обеспечивают 100 TOPS/Watt

Исследователи готовятся к следующей волне прорывов. Делли описал экспериментальный чип, который продемонстрировал почти 100 тераопераций в ватте на LLM.

Эксперимент показал энергоэффективный способ дальнейшего ускорения моделей трансформатора, используемых в генеративном AI. Это применение четырехбитной арифметики, одного из нескольких упрощенных числовых подходов, обещающих будущие преимущества.

Билл Делли

Глядя в будущее, Делли обсудил способы ускорения вычислений и экономии энергии с использованием логарифмической математики, подход, который NVIDIA подробно описала в патенте 2021 года.

Настройка оборудования для AI

Он исследовал полдюжины других техник для настройки оборудования под конкретные задачи AI, часто путем определения новых типов данных или операций.

Делли описал способы упрощения нейронных сетей, обрезки синапсов и нейронов в подходе, называемом структурной разреженностью, который впервые был применен в графических процессорах Tensor Core A100 от NVIDIA.

“Мы не закончили с разреженностью”, – сказал он. “Нам нужно что-то сделать с активациями, и можно иметь большую разреженность и весов тоже”.

Исследователям нужно разрабатывать аппаратное и программное обеспечение параллельно, тщательно принимая решения о том, где тратить драгоценную энергию, сказал он. Например, память и коммуникационные цепи должны минимизировать перемещение данных.

“Это интересное время для компьютерных инженеров, потому что мы обеспечиваем эту огромную революцию в области искусственного интеллекта, и мы еще не осознали, насколько она будет большой”, – сказал Делли.

Более гибкие сети

На отдельной презентации Кевин Дирлинг, вице-президент по сетевым технологиям NVIDIA, описал уникальную гибкость процессоров BlueField DPU и коммутаторов Spectrum для распределения ресурсов на основе изменяющегося сетевого трафика или пользовательских правил.

Способность чипов динамически изменять аппаратные ускорители в считанные секунды обеспечивает балансировку нагрузки с максимальной пропускной способностью и дает основным сетям новый уровень адаптируемости. Это особенно полезно для защиты от киберугроз.

“Сегодня с генеративными AI и задачами кибербезопасности все динамично, все постоянно меняется”, – сказал Дирлинг. “Поэтому мы переходим к возможности программирования в режиме выполнения и ресурсам, которые мы можем изменять на лету”.

Кроме того, исследователи NVIDIA и Rice University разрабатывают способы использования гибкости времени выполнения с использованием популярного языка программирования P4.

Grace – лидер серверных ЦП

Презентация компании Arm о ее ядрах Neoverse V2 включала обновление о производительности процессора NVIDIA Grace CPU Superchip, первого процессора, реализующего их.

Тесты показывают, что системы Grace при одинаковой мощности обеспечивают в два раза большую пропускную способность по сравнению с существующими серверами x86 при различных нагрузках ЦП. Кроме того, программа SystemReady от Arm подтверждает, что системы Grace будут работать с существующими операционными системами, контейнерами и приложениями Arm без модификации.

Grace позволяет операторам центров обработки данных выбирать большую производительность или меньший энергопотребление.

Grace использует сверхбыструю ткань для соединения 72 ядер Arm Neoverse V2 на одном кристалле, а затем версия NVLink соединяет два из этих кристаллов в одном пакете, обеспечивая пропускную способность 900 ГБ/с. Это первый ЦП центра обработки данных, использующий память LPDDR5X класса серверов, обеспечивающий на 50% большую пропускную способность памяти по сравнению с обычной серверной памятью при сходной стоимости, но с восьмикратно меньшим энергопотреблением.

Hot Chips начался 27 августа с полного дня семинаров, включая выступления экспертов NVIDIA по нейронным сетям и протоколам для межчиповых соединений, и продолжается до сегодняшнего дня.