«Будущее генеративного искусственного интеллекта находится на переднем крае»

«Передовые технологии генеративного искусственного интеллекта будущее на пороге»

Появление ChatGPT и Генеративного ИИ в целом является ключевым моментом в истории технологий и сравнивается с появлением Интернета и смартфона. Генеративный ИИ показал неограниченный потенциал в способности вести интеллектуальные разговоры, сдавать экзамены, генерировать сложные программы/код и создавать привлекательные изображения и видео. В то же время, основные модели генеративного ИИ выполняются на видеокартах, как для обучения, так и для вывода, но это не является долгосрочным масштабируемым решением, особенно для вывода, из-за таких факторов, как стоимость, энергопотребление, задержка, конфиденциальность и безопасность. Эта статья рассматривает каждый из этих факторов вместе с приводимыми примерами, чтобы перенести вычислительные нагрузки генеративного ИИ к краю.

Большинство приложений работают на процессорах высокой производительности – либо на устройстве (например, смартфонах, настольных компьютерах, ноутбуках), либо в центрах обработки данных. Поскольку количество приложений, использующих ИИ, растет, такие процессоры, оснащенные только центральными процессорами (CPU), оказываются недостаточными. Кроме того, быстрый рост нагрузок генеративного ИИ вызывает экспоненциальный спрос на серверы с поддержкой ИИ, требующие дорогих и энергозатратных видеокарт, что, в свою очередь, увеличивает инфраструктурные затраты. Стоимость таких серверов с поддержкой ИИ может превышать 7 раз стоимость обычного сервера, причем видеокарты увеличивают эту дополнительную стоимость на 80%.

Кроме того, облачный сервер потребляет от 500 Вт до 2000 Вт электроэнергии, в то время как сервер, поддерживающий ИИ, потребляет от 2000 Вт до 8000 Вт – в 4 раза больше! Для поддержки таких серверов центры обработки данных нуждаются в дополнительных модулях охлаждения и модернизации инфраструктуры, что может превысить даже затраты на вычисления. Центры обработки данных уже потребляют 300 ТВт электроэнергии в год, практически 1% от общего мирового энергопотребления. Если тенденции в развитии ИИ продолжатся, то вплоть до 2030 года центрами обработки данных может потребляться до 5% общего объема электроэнергии в мире. Кроме того, в центры обработки данных в настоящее время инвестируется неизмеримое количество средств. Предполагается, что к 2027 году центры обработки данных будут потреблять до 500 миллиардов долларов на капитальные затраты, преимущественно на развитие инфраструктуры ИИ.

Потребление электроэнергии ЦОД, которое уже составляет 300 ТВт, значительно увеличится с развитием генеративного ИИ.

Стоимость вычислений ИИ, а также потребление энергии будут сдерживать массовое внедрение генеративного ИИ. Проблемы масштабирования могут быть преодолены путем переноса вычислительных нагрузок ИИ к краю и использования оптимизированных решений для работы с ИИ. При таком подходе клиенты также получают другие преимущества, включая задержку, конфиденциальность, надежность и увеличенную функциональность.

Вычисления следуют за данными к краю

С тех пор, как десять лет назад ИИ появился в академическом мире, обучение и применение моделей ИИ происходят в облаке/центре обработки данных. Поскольку большая часть данных создается и используется на краю – особенно видеоданные – логично перенести вывод данных к краю, тем самым улучшив общую стоимость владения (Total Cost of Ownership, TCO) для предприятий за счет снижения стоимости сети и вычислений. В то время как стоимость вывода ИИ в облаке является постоянной, стоимость вывода на краю является одноразовыми затратами на аппаратное обеспечение. Фактически, добавление к системе процессора ИИ на краю снижает общие эксплуатационные расходы. Как и миграция обычных нагрузок ИИ на край (например, прибор, устройство), генеративные нагрузки ИИ следуют аналогичным путем. Это принесет существенные экономические выгоды предприятиям и потребителям.

Переход к краю с использованием эффективного ускорителя ИИ для выполнения функций вывода также дает другие преимущества. Прежде всего, это задержка. Например, в игровых приложениях генеративным ИИ можно управлять и расширять неперсонажей (NPC), используя модели LLM, работающие на ускорителях ИИ на краю в игровой консоли или ПК, геймерам можно давать этим персонажам конкретные цели, чтобы они могли осмысленно участвовать в сюжете. Низкая задержка от локального вывода на краю позволяет игровому персонажу реагировать на команды и действия игроков в режиме реального времени. Это обеспечивает высокоиммерсивный игровой опыт в экономичном и энергоэффективном режиме.

В таких областях, как здравоохранение, конфиденциальность и надежность имеют огромное значение (например, оценка пациента, рекомендации по лекарствам). Данные и связанные с ними модели генеративного ИИ должны находиться на пути для защиты конфиденциальности пациента, а также для предотвращения блокировки доступа к моделям ИИ в облаке при сбоях связи, что может иметь катастрофические последствия. Устройство ИИ на краю, работающее с моделью генеративного ИИ, специально разработанной для каждого предприятия – в данном случае медицинского учреждения – позволяет легко решить вопросы конфиденциальности и надежности при обеспечении более низкой задержки и снижении стоимости.

Генеративное искусственное интеллекта на устройствах находящихся на периферии сети обеспечит низкую задержку в играх, сохранит данные пациентов и повысит надежность здравоохранения.

Множество моделей Gen AI, работающих в облаке, могут достигать трлн параметров – эти модели эффективно решают задачи общего назначения. Однако, для конкретных предприятий требуется, чтобы модели предоставляли результаты, соответствующие конкретному случаю использования. Возьмем, к примеру, такую ассистентку на основе Gen AI, созданную для принятия заказов в ресторане быстрого питания – для того, чтобы система имела безупречное взаимодействие с клиентом, основная Gen AI модель должна быть обучена на меню ресторана, в том числе зная информацию об аллергенах и ингредиентах. Размер модели может быть оптимизирован путем использования Large Language Model (LLM) для обучения относительно маленькой модели в размере 10-30 млрд параметров LLM и дальнейшей настройкой с использованием данных, специфичных для клиента. Такая модель может обеспечивать результаты с повышенной точностью и возможностями. И, учитывая меньший размер модели, она может быть эффективно развернута на ускорителе искусственного интеллекта на периферии сети.

Gen AI победит на периферии сети

Всегда будет необходимость в работе Gen AI в облаке, особенно для приложений общего назначения, таких как ChatGPT и Claude. Но когда дело доходит до конкретных предприятий, таких как генеративное заполнение Adobe Photoshop или Github copilot, генеративный искусственный интеллект на периферии сети – это не только будущее, но и настоящее. Специальные ускорители искусственного интеллекта – здесь ключ к успеху.