NVIDIA обеспечивает обучение некоторых из крупнейших моделей основы Amazon Titan

NVIDIA осуществляет обучение базовых моделей некоторых из самых крупных основ Amazon Titan

Все, что связано с большими языковыми моделями, является огромным – гигантские модели обучаются на огромных наборах данных с использованием тысяч NVIDIA GPUs.

Это может создавать множество больших проблем для компаний, занимающихся генеративным искусственным интеллектом. NVIDIA NeMo, фреймворк для создания, настройки и запуска LLMs, помогает преодолеть эти проблемы.

Команда опытных ученых и разработчиков в Amazon Web Services создает основные модели Amazon Titan foundation models для Amazon Bedrock, сервиса для основных моделей генеративного искусственного интеллекта, последние несколько месяцев используют NVIDIA NeMo.

“Одна из основных причин для нас работать с NeMo состоит в том, что он расширяемый, обладает оптимизациями, которые позволяют нам использовать высокую загрузку GPU, а также масштабироваться до более крупных кластеров, чтобы мы могли обучать и доставлять модели нашим клиентам быстрее”, – сказал Леонард Лаусен, старший прикладной ученый в AWS.

Думайте в большом масштабе, действительно большом

Техники параллелизма в NeMo обеспечивают эффективное обучение LLM в масштабе. При его сопряжении с Elastic Fabric Adapter от AWS команда смогла распределить свою LLM по множеству GPU для ускорения обучения.

EFA предоставляет клиентам AWS инфраструктуру UltraCluster Networking, которая может напрямую соединять более 10 000 графических процессоров и обходить операционную систему и ЦП с использованием NVIDIA GPUDirect.

Комбинация позволила ученым из AWS достичь отличного качества модели – что невозможно при использовании только подходов с параллелизмом данных в масштабе.

Фреймворк подходит для любых размеров

“Гибкость NeMo”, – сказал Лаусен, – “позволила AWS настроить программное обеспечение для обучения под особенности новой модели Titan, наборов данных и инфраструктуры.”

В нововведения AWS входит эффективная передача потоков данных от Amazon Simple Storage Service (Amazon S3) к GPU-кластеру. “Было легко внедрить эти улучшения, потому что NeMo основан на популярных библиотеках, таких как PyTorch Lightning, которые стандартизируют компоненты конвейера обучения LLM”, – сказал Лаусен.

AWS и NVIDIA стремятся включить в продукты, такие как NVIDIA NeMo, и службы, такие как Amazon Titan, полученные уроки из совместной работы во благо клиентов.