Следуя закону Хуана видео показывает, как инженеры поддерживают увеличение скорости.
Соблюдая закон Хуана видео, демонстрирующее, как инженеры обеспечивают повышение скорости.
В выступлении, которое доступно онлайн, главный ученый NVIDIA Билл Делли описывает тектонический сдвиг в способе доставки вычислительной производительности в эру пост-Moore.
Как отмечается в недавнем приветственном слове на конференции Hot Chips, где ежегодно собираются инженеры по чипам и системам, каждый новый процессор требует особых усилий и изобретательности при создании и проверке новых компонентов. Это радикально отличается от периода поколения назад, когда инженеры в основном полагались на физику все более маленьких и быстрых чипов.
Команда из более чем 300 человек, которой руководит Делли в NVIDIA Research, помогла достичь удивительного увеличения производительности одиночной GPU на 1000 раз в области инференции искусственного интеллекта за последнее десятилетие (см. диаграмму ниже).
Это поразительное увеличение, которое первым было названо “Законом Хуанга” журналом IEEE Spectrum в честь основателя и генерального директора NVIDIA Дженсена Хуанга. Позже это название стало популярным благодаря статье в Wall Street Journal.
- Исследователи развивают топологические сверхпроводники для квантовых вычислений.
- Масштабирование обучения для множества различных типов роботов
- Исследователи из MIT и CUHK предлагают LongLoRA (Long Low-Rank Adaptation), эффективный подход AI для очень крупных моделей языка с длинным контекстом (LLM).
Этот прогресс является ответом на такое же феноменальное увеличение использования моделей большого языка в генеративном искусственном интеллекте, которые увеличиваются в десятки раз каждый год.
“Это задает темп нам в области аппаратных средств, потому что, по нашему мнению, мы должны удовлетворять этому спросу”, – сказал Делли.
В своем выступлении Делли подробно описал элементы, обеспечившие скачок в 1000 раз.
Наибольшее увеличение в 16 раз было достигнуто за счет нахождения более простого способа представления чисел, используемых компьютерами для вычислений.
Новая математика
Последняя архитектура NVIDIA Hopper с использованием двигателя Transformer использует динамическое сочетание 8- и 16-битного численного и целочисленного математического обработки. Она адаптирована к потребностям современных моделей генеративного искусственного интеллекта. Делли подробно описал как увеличение производительности, так и экономию энергии, обеспечиваемые новой математикой.
В отдельности его команда помогла достичь увеличения в 12.5 раз путем создания специальных инструкций, которые указывают GPU, как организовывать свою работу. Эти сложные команды помогают выполнить больше работы с меньшим энергопотреблением.
Таким образом, компьютеры могут быть “столь же эффективными, как специализированные ускорители, но сохранять все возможности программирования GPU”, – отметил он.
Кроме того, архитектура NVIDIA Ampere добавила структурированную разреженность, инновационный способ упрощения весов в моделях искусственного интеллекта без ущерба для точности модели. Техника обеспечила еще 2-кратное увеличение производительности и обещает будущие прогрессивные решения.
Делли также описал, как межсвязь NVLink между GPU в системе и сетевая технология NVIDIA между системами вместе способствуют достижению увеличения производительности одиночного GPU в 1000 раз.
Ничего не бывает даром
Однако, как отметил Делли, переход GPU от 28 нм до 5 нм процессов полупроводников за десять лет всего лишь объясняет увеличение в 2.5 раза.
Это огромное изменение по сравнению с компьютерным дизайном поколения назад в соответствии с законом Мура, согласно которому производительность должна удваиваться каждые два года, по мере уменьшения размеров чипов и их увеличения в скорости.
Те приросты были описаны в части скейлинга Денарда, фактически физической формулой, определенной в статье 1974 года, соавторами которой являются ученые IBM Роберт Денард. К сожалению, физика уменьшения уперлась в естественные ограничения, такие как количество тепла, которое могут выдержать все более малые и быстрые устройства.
Оптимистичные перспективы
Далли выразил уверенность в том, что закон Хуанга будет продолжаться, несмотря на уменьшающиеся приросты, обеспечиваемые законом Мура.
Например, он описал несколько возможностей для будущих прорывов в дальнейшем упрощении представления чисел, создании большей разреженности в моделях ИИ и разработке лучших схем памяти и коммуникации.
Потому что каждое новое поколение чипов и систем требует новых инноваций, “это интересное время для работы компьютерным инженером”, – сказал он.
Далли считает, что новый динамичный подход в проектировании компьютеров предоставляет инженерам NVIDIA три самые желаемые возможности: быть частью победоносной команды, работать с умными людьми и заниматься разработкой, которая оказывает влияние.