Следуя закону Хуана видео показывает, как инженеры поддерживают увеличение скорости.

Соблюдая закон Хуана видео, демонстрирующее, как инженеры обеспечивают повышение скорости.

В выступлении, которое доступно онлайн, главный ученый NVIDIA Билл Делли описывает тектонический сдвиг в способе доставки вычислительной производительности в эру пост-Moore.

Как отмечается в недавнем приветственном слове на конференции Hot Chips, где ежегодно собираются инженеры по чипам и системам, каждый новый процессор требует особых усилий и изобретательности при создании и проверке новых компонентов. Это радикально отличается от периода поколения назад, когда инженеры в основном полагались на физику все более маленьких и быстрых чипов.

Команда из более чем 300 человек, которой руководит Делли в NVIDIA Research, помогла достичь удивительного увеличения производительности одиночной GPU на 1000 раз в области инференции искусственного интеллекта за последнее десятилетие (см. диаграмму ниже).

Это поразительное увеличение, которое первым было названо “Законом Хуанга” журналом IEEE Spectrum в честь основателя и генерального директора NVIDIA Дженсена Хуанга. Позже это название стало популярным благодаря статье в Wall Street Journal.

1000-кратный скачок в производительности GPU за десятилетие

Этот прогресс является ответом на такое же феноменальное увеличение использования моделей большого языка в генеративном искусственном интеллекте, которые увеличиваются в десятки раз каждый год.

“Это задает темп нам в области аппаратных средств, потому что, по нашему мнению, мы должны удовлетворять этому спросу”, – сказал Делли.

В своем выступлении Делли подробно описал элементы, обеспечившие скачок в 1000 раз.

Наибольшее увеличение в 16 раз было достигнуто за счет нахождения более простого способа представления чисел, используемых компьютерами для вычислений.

Новая математика

Последняя архитектура NVIDIA Hopper с использованием двигателя Transformer использует динамическое сочетание 8- и 16-битного численного и целочисленного математического обработки. Она адаптирована к потребностям современных моделей генеративного искусственного интеллекта. Делли подробно описал как увеличение производительности, так и экономию энергии, обеспечиваемые новой математикой.

В отдельности его команда помогла достичь увеличения в 12.5 раз путем создания специальных инструкций, которые указывают GPU, как организовывать свою работу. Эти сложные команды помогают выполнить больше работы с меньшим энергопотреблением.

Таким образом, компьютеры могут быть “столь же эффективными, как специализированные ускорители, но сохранять все возможности программирования GPU”, – отметил он.

Кроме того, архитектура NVIDIA Ampere добавила структурированную разреженность, инновационный способ упрощения весов в моделях искусственного интеллекта без ущерба для точности модели. Техника обеспечила еще 2-кратное увеличение производительности и обещает будущие прогрессивные решения.

Делли также описал, как межсвязь NVLink между GPU в системе и сетевая технология NVIDIA между системами вместе способствуют достижению увеличения производительности одиночного GPU в 1000 раз.

Ничего не бывает даром

Однако, как отметил Делли, переход GPU от 28 нм до 5 нм процессов полупроводников за десять лет всего лишь объясняет увеличение в 2.5 раза.

Это огромное изменение по сравнению с компьютерным дизайном поколения назад в соответствии с законом Мура, согласно которому производительность должна удваиваться каждые два года, по мере уменьшения размеров чипов и их увеличения в скорости.

Те приросты были описаны в части скейлинга Денарда, фактически физической формулой, определенной в статье 1974 года, соавторами которой являются ученые IBM Роберт Денард. К сожалению, физика уменьшения уперлась в естественные ограничения, такие как количество тепла, которое могут выдержать все более малые и быстрые устройства.

Оптимистичные перспективы

Далли выразил уверенность в том, что закон Хуанга будет продолжаться, несмотря на уменьшающиеся приросты, обеспечиваемые законом Мура.

Например, он описал несколько возможностей для будущих прорывов в дальнейшем упрощении представления чисел, создании большей разреженности в моделях ИИ и разработке лучших схем памяти и коммуникации.

Потому что каждое новое поколение чипов и систем требует новых инноваций, “это интересное время для работы компьютерным инженером”, – сказал он.

Далли считает, что новый динамичный подход в проектировании компьютеров предоставляет инженерам NVIDIA три самые желаемые возможности: быть частью победоносной команды, работать с умными людьми и заниматься разработкой, которая оказывает влияние.